論文の概要: Talking Together: Synthesizing Co-Located 3D Conversations from Audio
- arxiv url: http://arxiv.org/abs/2603.08674v1
- Date: Mon, 09 Mar 2026 17:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.619436
- Title: Talking Together: Synthesizing Co-Located 3D Conversations from Audio
- Title(参考訳): 会話を一緒にする: 音声から3D対話を合成する
- Authors: Mengyi Shan, Shouchieh Chang, Ziqian Bai, Shichen Liu, Yinda Zhang, Luchuan Song, Rohit Pandey, Sean Fanello, Zeng Huang,
- Abstract要約: 混合オーディオストリームから2人の対話的かつ協調的な参加者を対象に,完全な3D顔アニメーションを作成するという課題に対処する。
我々の研究は、現実的な対人対話に欠かせない3次元空間関係をモデル化する最初のものである。
本手法は,VRおよびテレプレゼンスにおける没入型アプリケーションに適した流動的,制御可能,空間的に認識されたダイアディックアニメーションを生成する。
- 参考スコア(独自算出の注目度): 21.481529577056904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the challenging task of generating complete 3D facial animations for two interacting, co-located participants from a mixed audio stream. While existing methods often produce disembodied "talking heads" akin to a video conference call, our work is the first to explicitly model the dynamic 3D spatial relationship -- including relative position, orientation, and mutual gaze -- that is crucial for realistic in-person dialogues. Our system synthesizes the full performance of both individuals, including precise lip-sync, and uniquely allows their relative head poses to be controlled via textual descriptions. To achieve this, we propose a dual-stream architecture where each stream is responsible for one participant's output. We employ speaker's role embeddings and inter-speaker cross-attention mechanisms designed to disentangle the mixed audio and model the interaction. Furthermore, we introduce a novel eye gaze loss to promote natural, mutual eye contact. To power our data-hungry approach, we introduce a novel pipeline to curate a large-scale conversational dataset consisting of over 2 million dyadic pairs from in-the-wild videos. Our method generates fluid, controllable, and spatially aware dyadic animations suitable for immersive applications in VR and telepresence, significantly outperforming existing baselines in perceived realism and interaction coherence.
- Abstract(参考訳): 混合オーディオストリームから2人の対話的かつ協調的な参加者を対象に,完全な3D顔アニメーションを作成するという課題に対処する。
既存の手法は、ビデオ会議のコールに似た非身体的な「トーキングヘッド」を生成することが多いが、我々の研究は、現実的な対人対話に不可欠である、相対的な位置、向き、相互の視線を含む、動的3D空間関係を明示的にモデル化する最初のものである。
本システムでは, 高精度なリップシンクを含め, 両個体の完全なパフォーマンスを合成し, テキスト記述による相対的な頭部ポーズの制御を独自に行う。
これを実現するために、各ストリームが1人の参加者の出力に責任を負う二重ストリームアーキテクチャを提案する。
我々は、混合音声をアンタングルして相互作用をモデル化するために、話者の役割埋め込みと話者間クロスアテンション機構を採用する。
さらに、自然と相互の眼球接触を促進するために、新しい視線喪失を導入する。
データ・ハングリー・アプローチを推進すべく、我々は、200万以上のディヤド対のビデオからなる大規模な会話データセットをキュレートする、新しいパイプラインを導入しました。
本手法は,VRおよびテレプレゼンスにおける没入型アプリケーションに適した流動的,制御可能,空間的に認識されたダイアディックアニメーションを生成する。
関連論文リスト
- TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。
本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文 参考訳(メタデータ) (2025-12-23T12:04:23Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。