論文の概要: MANGO:Natural Multi-speaker 3D Talking Head Generation via 2D-Lifted Enhancement
- arxiv url: http://arxiv.org/abs/2601.01749v1
- Date: Mon, 05 Jan 2026 02:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.74327
- Title: MANGO:Natural Multi-speaker 3D Talking Head Generation via 2D-Lifted Enhancement
- Title(参考訳): MANGO:2Dリフテッド・エンハンスメントによるナチュラルマルチスピーカ3次元音声ヘッド生成
- Authors: Lei Zhu, Lijian Lin, Ye Zhu, Jiahao Wu, Xuehan Hou, Yu Li, Yunfei Liu, Jie Chen,
- Abstract要約: 既存の3D会話アバターアプローチは、きめ細かい顔のダイナミクスを捉えるのに失敗した、エラーを起こしやすい擬似3Dラベルに依存している。
擬似3Dラベルがもたらすノイズを軽減するために、交互にトレーニングすることで、純粋な画像レベルの監視を活用する新しい2段階フレームワークMANGOを提案する。
本手法は,2人の対話動作をモデル化する際の例外的精度と現実性を実現し,音声駆動音声ヘッドの忠実度と制御性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 26.32210658603041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current audio-driven 3D head generation methods mainly focus on single-speaker scenarios, lacking natural, bidirectional listen-and-speak interaction. Achieving seamless conversational behavior, where speaking and listening states transition fluidly remains a key challenge. Existing 3D conversational avatar approaches rely on error-prone pseudo-3D labels that fail to capture fine-grained facial dynamics. To address these limitations, we introduce a novel two-stage framework MANGO, which leveraging pure image-level supervision by alternately training to mitigate the noise introduced by pseudo-3D labels, thereby achieving better alignment with real-world conversational behaviors. Specifically, in the first stage, a diffusion-based transformer with a dual-audio interaction module models natural 3D motion from multi-speaker audio. In the second stage, we use a fast 3D Gaussian Renderer to generate high-fidelity images and provide 2D-level photometric supervision for the 3D motions through alternate training. Additionally, we introduce MANGO-Dialog, a high-quality dataset with over 50 hours of aligned 2D-3D conversational data across 500+ identities. Extensive experiments demonstrate that our method achieves exceptional accuracy and realism in modeling two-person 3D dialogue motion, significantly advancing the fidelity and controllability of audio-driven talking heads.
- Abstract(参考訳): 現在の音声駆動型3Dヘッド生成方式は、主に単一話者シナリオに焦点を当てており、自然な双方向のリス・アンド・スピーカーインタラクションが欠如している。
会話や聞き取り状態が流動的に遷移する、シームレスな会話行動を実現することは、依然として重要な課題である。
既存の3D会話アバターアプローチは、きめ細かい顔のダイナミクスを捉えるのに失敗した、エラーを起こしやすい擬似3Dラベルに依存している。
これらの制約に対処するため,疑似3Dラベルによるノイズの緩和を交互にトレーニングすることで,純粋な画像レベルの監視を活用する新しい2段階フレームワークMANGOを導入する。
特に、第1段階では、マルチスピーカオーディオから自然な3Dモーションをモデル化するデュアルオーディオインタラクションモジュールを備えた拡散ベースのトランスフォーマーが使用される。
第2段階では,高速な3次元ガウスレンダを用いて高忠実度画像を生成し,交互トレーニングによる3次元運動の2次元レベルの測光監督を行う。
さらに,500以上のIDにまたがる50時間以上のアライメントされた2D-3D会話データを備えた高品質なデータセットであるMANGO-Dialogを紹介した。
広汎な実験により,本手法は2人の対話動作をモデル化する際,例外的な精度と現実性を実現し,音声駆動音声ヘッドの忠実度と制御性を大幅に向上させることを示した。
関連論文リスト
- Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics [40.86039227407712]
本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
論文 参考訳(メタデータ) (2025-12-17T11:37:35Z) - VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - InteractVLM: 3D Interaction Reasoning from 2D Foundational Models [85.76211596755151]
InactVLMは、人体と物体の3次元接触点を、ワン・イン・ザ・ワイルド画像から推定する新しい手法である。
既存の方法は、高価なモーションキャプチャシステムや面倒な手動ラベリングを通じて収集された3Dコンタクトアノテーションに依存している。
本稿では,人間の接触予測を対象のセマンティクス上で明示的に条件付けするセマンティック・ヒューマン・コンタクト推定というタスクを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:33Z) - MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - NeRFFaceSpeech: One-shot Audio-driven 3D Talking Head Synthesis via Generative Prior [5.819784482811377]
高品質な3D対応音声ヘッドを作成できる新しい方法NeRFFaceSpeechを提案する。
本手法では,1枚の画像に対応する3次元顔特徴空間を作成できる。
また,リパインネットを導入し,その情報不足を補う。
論文 参考訳(メタデータ) (2024-05-09T13:14:06Z) - Learn2Talk: 3D Talking Face Learns from 2D Talking Face [15.99315075587735]
本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
論文 参考訳(メタデータ) (2024-04-19T13:45:14Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。