Fugu-MT 論文翻訳(概要): Driving Animatronic Robot Facial Expression From Speech

論文の概要: Driving Animatronic Robot Facial Expression From Speech

arxiv url: http://arxiv.org/abs/2403.12670v3
Date: Wed, 7 Aug 2024 10:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 17:50:17.169613
Title: Driving Animatronic Robot Facial Expression From Speech
Title（参考訳）: 音声によるアニマトロニクスロボット顔表情の駆動
Authors: Boren Li, Hang Li, Hangxin Liu,
Abstract要約: 本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。提案手法は線形スキン (LBS) を統一表現として用い, エンボディメント設計とモーション合成の両面での革新を導く。このアプローチは、1台のNvidia GTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に非常にリアルな表情を生成する能力を示す。
参考スコア（独自算出の注目度）: 7.8799497614708605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Animatronic robots hold the promise of enabling natural human-robot interaction through lifelike facial expressions. However, generating realistic, speech-synchronized robot expressions poses significant challenges due to the complexities of facial biomechanics and the need for responsive motion synthesis. This paper introduces a novel, skinning-centric approach to drive animatronic robot facial expressions from speech input. At its core, the proposed approach employs linear blend skinning (LBS) as a unifying representation, guiding innovations in both embodiment design and motion synthesis. LBS informs the actuation topology, facilitates human expression retargeting, and enables efficient speech-driven facial motion generation. This approach demonstrates the capability to produce highly realistic facial expressions on an animatronic face in real-time at over 4000 fps on a single Nvidia RTX 4090, significantly advancing robots' ability to replicate nuanced human expressions for natural interaction. To foster further research and development in this field, the code has been made publicly available at: \url{https://github.com/library87/OpenRoboExp}.
Abstract（参考訳）: アニマトロニクスロボットは、生命に似た表情を通して自然な人間とロボットの相互作用を可能にするという約束を持っている。しかし、現実的な音声同期ロボット表現の生成は、顔のバイオメカニクスの複雑さと、応答性のある動き合成の必要性により、大きな課題を生んでいる。本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。提案手法の中核となるのは、線形ブレンドスキン(LBS)を統一表現として採用し、エンボディメント設計とモーション合成の両面での革新を導くことである。 LBSは、アクティベーショントポロジを通知し、人間の表情の再ターゲティングを促進し、効率的な音声駆動顔の動き生成を可能にする。このアプローチは、1つのNvidia RTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に高度にリアルな表情を生成する能力を示す。この分野でのさらなる研究と開発を促進するため、コードは次のように公開されている。

関連論文リスト

Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文参考訳（メタデータ） (2025-08-04T06:35:48Z)
HERO: Human Reaction Generation from Videos [54.602947113980655]
HEROは、videOsからのHuman rEaction geneRationのフレームワークである。 HEROはビデオのグローバルレベルとフレームレベルの局所表現の両方を考慮し、インタラクションの意図を抽出する。局所的な視覚表現は、ビデオに固有の動的特性を最大限に活用するために、モデルに連続的に注入される。
論文参考訳（メタデータ） (2025-03-11T10:39:32Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Design and Control of a Bipedal Robotic Character [3.650193138379926]
この研究は、足のついたロボットのための表現力のあるアーティスト指向のモーションとロバストなダイナミックモビリティを統一することを目的としている。キャラクタ駆動型機械的特徴に着目した新しい二足歩行ロボットを提案する。命令信号に条件付けられた芸術的動作を頑健に行うための強化学習に基づく制御アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-01-09T12:55:21Z)
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文参考訳（メタデータ） (2024-10-30T17:22:45Z)
Harmon: Whole-Body Motion Generation of Humanoid Robots from Language Descriptions [31.134450087838673]
この研究は、言語記述からヒューマノイドロボットのための多様な全身運動を生成することに焦点を当てている。我々は、人体の動きを初期化するために、広範囲な人体の動きデータセットから人体の動きの先行を活用できる。提案手法は, 自然な, 表現的, テキストに沿ったヒューマノイド運動を生成できることを実証する。
論文参考訳（メタデータ） (2024-10-16T17:48:50Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。主な課題は、データ制限、唇のアライメント、表情の自然さである。本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文参考訳（メタデータ） (2024-04-29T11:19:15Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
Audio-Driven Talking Face Generation with Diverse yet Realistic Facial Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。 DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-04-18T12:36:15Z)
Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文参考訳（メタデータ） (2022-05-02T09:21:39Z)
Synthesis and Execution of Communicative Robotic Movements with Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文参考訳（メタデータ） (2022-03-29T15:03:05Z)
Smile Like You Mean It: Driving Animatronic Robotic Face with Learned Models [11.925808365657936]
人間のような社会ロボットを構築するには、知的で一般化可能な表情を生成する能力が不可欠である。顔模倣のための視覚に基づく自己教師型学習フレームワークを開発した。本手法は, 多様な被験者に対して, 正確かつ多様な顔の模倣を可能にする。
論文参考訳（メタデータ） (2021-05-26T17:57:19Z)
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-12T18:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。