論文の概要: From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- arxiv url: http://arxiv.org/abs/2401.01885v1
- Date: Wed, 3 Jan 2024 18:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:25:33.502018
- Title: From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- Title(参考訳): 音声からフォトリアルへ:会話で人間を合成する
- Authors: Evonne Ng, Javier Romero, Timur Bagautdinov, Shaojie Bai, Trevor
Darrell, Angjoo Kanazawa, Alexander Richard
- Abstract要約: 音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
- 参考スコア(独自算出の注目度): 107.88375243135579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for generating full-bodied photorealistic avatars that
gesture according to the conversational dynamics of a dyadic interaction. Given
speech audio, we output multiple possibilities of gestural motion for an
individual, including face, body, and hands. The key behind our method is in
combining the benefits of sample diversity from vector quantization with the
high-frequency details obtained through diffusion to generate more dynamic,
expressive motion. We visualize the generated motion using highly
photorealistic avatars that can express crucial nuances in gestures (e.g.
sneers and smirks). To facilitate this line of research, we introduce a
first-of-its-kind multi-view conversational dataset that allows for
photorealistic reconstruction. Experiments show our model generates appropriate
and diverse gestures, outperforming both diffusion- and VQ-only methods.
Furthermore, our perceptual evaluation highlights the importance of
photorealism (vs. meshes) in accurately assessing subtle motion details in
conversational gestures. Code and dataset available online.
- Abstract(参考訳): 本稿では,dyadicインタラクションの対話的ダイナミクスに応じたジェスチャーによるフルボディフォトリアリスティックアバター生成のためのフレームワークを提案する。
音声音声が与えられた場合, 顔, 体, 手など個人に対して, ジェストラル運動の複数の可能性を示す。
本手法の鍵は,ベクトル量子化からのサンプル多様性の利点と拡散によって得られる高周波細部を組み合わせることで,よりダイナミックで表現力に富む運動を生成することである。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
そこで本研究では,まず,フォトリアリスティックなリコンストラクションを可能にする対話型データセットを提案する。
実験により,モデルが適切な多様なジェスチャを生成し,拡散法とvq法の両方に匹敵することを示した。
さらに,我々の知覚的評価は,対話的ジェスチャーにおける微妙な動きの詳細を正確に評価する上で,フォトリアリズム(対メッシュ)の重要性を強調している。
コードとデータセットはオンラインで入手できる。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - AgentAvatar: Disentangling Planning, Driving and Rendering for
Photorealistic Avatar Agents [16.544688997764293]
我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。
これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。
我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
論文 参考訳(メタデータ) (2023-11-29T09:13:00Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar
Reconstruction [9.747648609960185]
本研究では,人間の顔の外観と動態をモデル化するための動的神経放射場を提案する。
特に、ARやVRにおけるテレプレゼンス応用には、新しい視点や見出しを含む外観の忠実な再現が必要である。
論文 参考訳(メタデータ) (2020-12-05T16:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。