論文の概要: A Survey of Body and Face Motion: Datasets, Performance Evaluation Metrics and Generative Techniques
- arxiv url: http://arxiv.org/abs/2512.09005v1
- Date: Tue, 09 Dec 2025 11:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.262925
- Title: A Survey of Body and Face Motion: Datasets, Performance Evaluation Metrics and Generative Techniques
- Title(参考訳): 身体と顔の動きに関する調査:データセット、性能評価指標、生成技術
- Authors: Lownish Rai Sookha, Nikhil Pakhale, Mudasir Ganaie, Abhinav Dhall,
- Abstract要約: 身体と顔の動きは参加者に重要な情報を伝える。
生成モデリングとマルチモーダル学習は、音声などの信号から動きを生成することができる。
本調査では、コアコンセプト、表現テクニック、生成アプローチ、データセット、評価指標についてレビューする。
- 参考スコア(独自算出の注目度): 6.394763190305628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Body and face motion play an integral role in communication. They convey crucial information on the participants. Advances in generative modeling and multi-modal learning have enabled motion generation from signals such as speech, conversational context and visual cues. However, generating expressive and coherent face and body dynamics remains challenging due to the complex interplay of verbal / non-verbal cues and individual personality traits. This survey reviews body and face motion generation, covering core concepts, representations techniques, generative approaches, datasets and evaluation metrics. We highlight future directions to enhance the realism, coherence and expressiveness of avatars in dyadic settings. To the best of our knowledge, this work is the first comprehensive review to cover both body and face motion. Detailed resources are listed on https://lownish23csz0010.github.io/mogen/.
- Abstract(参考訳): 身体と顔の動きはコミュニケーションにおいて重要な役割を果たす。
彼らは参加者に重要な情報を伝える。
生成モデリングとマルチモーダル学習の進歩により、音声、会話コンテキスト、視覚的手がかりなどの信号から動きを生成することが可能になった。
しかし、言語/非言語的手がかりと個人的性格の複雑な相互作用のため、表現的かつ一貫性のある顔と身体のダイナミクスの生成は依然として困難である。
本調査では,コアコンセプト,表現技法,生成アプローチ,データセット,評価指標などについて,身体と顔の動きの生成について検討する。
我々は,アバターのリアリズム,コヒーレンス,表現性を高めるための今後の方向性を強調した。
私たちの知る限りでは、この研究は身体と顔の両方をカバーした初めての総合的なレビューです。
詳細なリソースはhttps://lownish23csz0010.github.io/mogen/に記載されている。
関連論文リスト
- ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。
本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文 参考訳(メタデータ) (2025-10-20T15:01:56Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。