論文の概要: DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
- arxiv url: http://arxiv.org/abs/2505.18096v1
- Date: Fri, 23 May 2025 16:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.234733
- Title: DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations
- Title(参考訳): DualTalk:Dual-Speaker Interaction for 3D Talking Head Conversations
- Authors: Ziqiao Peng, Yanbo Fan, Haoyu Wu, Xuan Wang, Hongyan Liu, Jun He, Zhaoxin Fan,
- Abstract要約: 既存の3Dトーキングヘッドジェネレーションモデルは、話すことや聞くことのみに焦点を当てている。
本稿では,3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
我々は、話者とリスナーの動的挙動を統合する新しい統合フレームワークであるDualTalkを紹介する。
- 参考スコア(独自算出の注目度): 18.419225973482423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In face-to-face conversations, individuals need to switch between speaking and listening roles seamlessly. Existing 3D talking head generation models focus solely on speaking or listening, neglecting the natural dynamics of interactive conversation, which leads to unnatural interactions and awkward transitions. To address this issue, we propose a new task -- multi-round dual-speaker interaction for 3D talking head generation -- which requires models to handle and generate both speaking and listening behaviors in continuous conversation. To solve this task, we introduce DualTalk, a novel unified framework that integrates the dynamic behaviors of speakers and listeners to simulate realistic and coherent dialogue interactions. This framework not only synthesizes lifelike talking heads when speaking but also generates continuous and vivid non-verbal feedback when listening, effectively capturing the interplay between the roles. We also create a new dataset featuring 50 hours of multi-round conversations with over 1,000 characters, where participants continuously switch between speaking and listening roles. Extensive experiments demonstrate that our method significantly enhances the naturalness and expressiveness of 3D talking heads in dual-speaker conversations. We recommend watching the supplementary video: https://ziqiaopeng.github.io/dualtalk.
- Abstract(参考訳): 対面会話では、個人が話す役割と聞く役割をシームレスに切り替える必要がある。
既存の3Dトーキングヘッドジェネレーションモデルは、会話や聞き取りのみに焦点を合わせ、対話的な会話の自然なダイナミクスを無視し、不自然な相互作用やぎこちない遷移をもたらす。
この問題に対処するために,我々は,連続会話における発話行動と聴取行動の両方をモデルで処理・生成する新しいタスク,すなわち3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
この課題を解決するために、話者とリスナーの動的挙動を統合し、現実的で一貫性のある対話インタラクションをシミュレートする新しい統合フレームワークであるDualTalkを紹介した。
このフレームワークは、話すときのライフライクな話し声を合成するだけでなく、聴くときの連続的かつ活発な非言語的フィードバックを生成し、役割間の相互作用を効果的に捉える。
また、1000文字を超える複数ラウンドの会話を50時間行う新しいデータセットを作成し、参加者は話と聞き取りを継続的に切り替える。
広汎な実験により,両話者会話における3次元音声の自然性と表現性を著しく向上することが示された。
補足ビデオを見て欲しい。 https://ziqiaopeng.github.io/dualtalk。
関連論文リスト
- EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild [20.84372784454967]
EgoSpeakは、エゴセントリックストリーミングビデオにおけるリアルタイム音声開始予測の新しいフレームワークである。
話者の1対1の視点から会話をモデル化することにより、EgoSpeakは人間のような対話に向いている。
EgoSpeakはランダムおよびサイレントベースのベースラインをリアルタイムでパフォーマンスする。
論文 参考訳(メタデータ) (2025-02-17T04:47:12Z) - INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。
INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。
このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文 参考訳(メタデータ) (2024-12-05T10:20:34Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。