論文の概要: Driving Animatronic Robot Facial Expression From Speech
- arxiv url: http://arxiv.org/abs/2403.12670v3
- Date: Wed, 7 Aug 2024 10:45:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 17:50:17.169613
- Title: Driving Animatronic Robot Facial Expression From Speech
- Title(参考訳): 音声によるアニマトロニクスロボット顔表情の駆動
- Authors: Boren Li, Hang Li, Hangxin Liu,
- Abstract要約: 本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。
提案手法は線形スキン (LBS) を統一表現として用い, エンボディメント設計とモーション合成の両面での革新を導く。
このアプローチは、1台のNvidia GTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に非常にリアルな表情を生成する能力を示す。
- 参考スコア(独自算出の注目度): 7.8799497614708605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Animatronic robots hold the promise of enabling natural human-robot interaction through lifelike facial expressions. However, generating realistic, speech-synchronized robot expressions poses significant challenges due to the complexities of facial biomechanics and the need for responsive motion synthesis. This paper introduces a novel, skinning-centric approach to drive animatronic robot facial expressions from speech input. At its core, the proposed approach employs linear blend skinning (LBS) as a unifying representation, guiding innovations in both embodiment design and motion synthesis. LBS informs the actuation topology, facilitates human expression retargeting, and enables efficient speech-driven facial motion generation. This approach demonstrates the capability to produce highly realistic facial expressions on an animatronic face in real-time at over 4000 fps on a single Nvidia RTX 4090, significantly advancing robots' ability to replicate nuanced human expressions for natural interaction. To foster further research and development in this field, the code has been made publicly available at: \url{https://github.com/library87/OpenRoboExp}.
- Abstract(参考訳): アニマトロニクスロボットは、生命に似た表情を通して自然な人間とロボットの相互作用を可能にするという約束を持っている。
しかし、現実的な音声同期ロボット表現の生成は、顔のバイオメカニクスの複雑さと、応答性のある動き合成の必要性により、大きな課題を生んでいる。
本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。
提案手法の中核となるのは、線形ブレンドスキン(LBS)を統一表現として採用し、エンボディメント設計とモーション合成の両面での革新を導くことである。
LBSは、アクティベーショントポロジを通知し、人間の表情の再ターゲティングを促進し、効率的な音声駆動顔の動き生成を可能にする。
このアプローチは、1つのNvidia RTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に高度にリアルな表情を生成する能力を示す。
この分野でのさらなる研究と開発を促進するため、コードは次のように公開されている。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Expressive Speech-driven Facial Animation with controllable emotions [12.201573788014622]
本稿では,音声から表情の表情を生成するための深層学習に基づく新しいアプローチを提案する。
広視野の表情を、制御可能な感情タイプと強度で表現することができる。
感情制御可能な顔アニメーションを可能にし、ターゲット表現を継続的に調整することができる。
論文 参考訳(メタデータ) (2023-01-05T11:17:19Z) - IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object
Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。
本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。
その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文 参考訳(メタデータ) (2022-12-14T23:59:24Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - Smile Like You Mean It: Driving Animatronic Robotic Face with Learned
Models [11.925808365657936]
人間のような社会ロボットを構築するには、知的で一般化可能な表情を生成する能力が不可欠である。
顔模倣のための視覚に基づく自己教師型学習フレームワークを開発した。
本手法は, 多様な被験者に対して, 正確かつ多様な顔の模倣を可能にする。
論文 参考訳(メタデータ) (2021-05-26T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。