論文の概要: TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation
- arxiv url: http://arxiv.org/abs/2512.20296v1
- Date: Tue, 23 Dec 2025 12:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.860216
- Title: TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation
- Title(参考訳): TAVID:テキスト駆動型音声・ビジュアル対話生成
- Authors: Ji-Hoon Kim, Junseok Ahn, Doyeop Kwak, Joon Son Chung, Shinji Watanabe,
- Abstract要約: 本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。
本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
- 参考スコア(独自算出の注目度): 72.46711449668814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of this paper is to jointly synthesize interactive videos and conversational speech from text and reference images. With the ultimate goal of building human-like conversational systems, recent studies have explored talking or listening head generation as well as conversational speech generation. However, these works are typically studied in isolation, overlooking the multimodal nature of human conversation, which involves tightly coupled audio-visual interactions. In this paper, we introduce TAVID, a unified framework that generates both interactive faces and conversational speech in a synchronized manner. TAVID integrates face and speech generation pipelines through two cross-modal mappers (i.e., a motion mapper and a speaker mapper), which enable bidirectional exchange of complementary information between the audio and visual modalities. We evaluate our system across four dimensions: talking face realism, listening head responsiveness, dyadic interaction fluency, and speech quality. Extensive experiments demonstrate the effectiveness of our approach across all these aspects.
- Abstract(参考訳): 本研究の目的は,テキストと参照画像から対話型ビデオと会話型音声を共同で合成することである。
人間のような会話システムを構築するという究極の目標を掲げた最近の研究は、会話音声生成だけでなく、音声や聴取ヘッド生成についても検討している。
しかしながら、これらの作品は典型的には、密結合された音声と視覚の相互作用を含む人間の会話のマルチモーダルな性質を見越して、独立して研究されている。
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。
TAVIDは2つのクロスモーダルマッパー(モーションマッパーとスピーカーマッパー)を介して顔と音声を生成するパイプラインを統合し、オーディオと視覚のモダリティ間で補完的な情報を双方向に交換することができる。
本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用の流速, 音声品質の4つの側面にまたがる。
大規模な実験は、これらの側面にまたがって我々のアプローチの有効性を実証する。
関連論文リスト
- DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations [18.419225973482423]
既存の3Dトーキングヘッドジェネレーションモデルは、話すことや聞くことのみに焦点を当てている。
本稿では,3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
我々は、話者とリスナーの動的挙動を統合する新しい統合フレームワークであるDualTalkを紹介する。
論文 参考訳(メタデータ) (2025-05-23T16:49:05Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。