論文の概要: Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels
- arxiv url: http://arxiv.org/abs/2604.10367v1
- Date: Sat, 11 Apr 2026 22:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.978891
- Title: Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels
- Title(参考訳): Beyond Monologue:対話型トーキングリスニングアバター生成と会話型音声コンテキスト認識カーネル
- Authors: Yuzhe Weng, Haotian Wang, Xinyi Yu, Xiaoyan Wu, Haoran Xu, Shan He, Jun Du,
- Abstract要約: 対話型仮想エージェントを開発し、会話と聴取の両方に双方向の音声入力を同時に処理する。
我々の手法は文脈意味論と強い時間的アライメントを融合させ、非常に自然で応答性の高い対話型デジタル人間を生成するための新しい最先端技術を構築した。
- 参考スコア(独自算出の注目度): 26.18760496276335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven human video generation has achieved remarkable success in monologue scenarios, largely driven by advancements in powerful video generation foundation models. Moving beyond monologues, authentic human communication is inherently a full-duplex interactive process, requiring virtual agents not only to articulate their own speech but also to react naturally to incoming conversational audio. Most existing methods simply extend conventional audio-driven paradigms to listening scenarios. However, relying on strict frame-to-frame alignment renders the model's response to long-range conversational dynamics rigid, whereas directly introducing global attention catastrophically degrades lip synchronization. Recognizing the unique temporal Scale Discrepancy between talking and listening behaviors, we introduce a multi-head Gaussian kernel to explicitly inject this physical intuition into the model as a progressive temporal inductive bias. Building upon this, we construct a full-duplex interactive virtual agent capable of simultaneously processing dual-stream audio inputs for both talking and listening. Furthermore, we introduce a rigorously cleaned Talking-Listening dataset VoxHear featuring perfectly decoupled speech and background audio tracks. Extensive experiments demonstrate that our approach successfully fuses strong temporal alignment with deep contextual semantics, setting a new state-of-the-art for generating highly natural and responsive full-duplex interactive digital humans. The project page is available at https://warmcongee.github.io/beyond-monologue/ .
- Abstract(参考訳): 音声駆動のヒューマンビデオ生成は、強力なビデオ生成基盤モデルの進歩により、モノローグシナリオにおいて顕著な成功を収めた。
モノローグを超えて、真の人間のコミュニケーションは本質的には二重の対話的プロセスであり、仮想エージェントは自身のスピーチを音声で表現するだけでなく、会話音声に自然に反応する必要がある。
既存の手法の多くは、単に従来の音声駆動のパラダイムをリスニングシナリオに拡張している。
しかし、フレーム間の厳密なアライメントに依存すると、長い範囲の会話のダイナミクスに対するモデルの反応は硬くなります。
発話行動と聴取行動のユニークな時間的尺度の相違を認識し,この物理直観を段階的時間的帰納バイアスとしてモデルに明示的に注入するマルチヘッドガウスカーネルを導入する。
そこで本研究では,会話と聞き取りの両ストリーム音声入力を同時に処理できる2重対話型仮想エージェントを構築した。
さらに,完全に分離された音声とバックグラウンドの音声トラックを特徴とする,厳格にクリーンなトーク・リスニングデータセットであるVoxHearを導入する。
広汎な実験により、我々のアプローチは、強い時間的アライメントと深い文脈的セマンティクスを融合させることに成功し、非常に自然で応答性の高いフルダブルプレックスなデジタル人間を生成するための新しい最先端技術を確立した。
プロジェクトページはhttps://warmcongee.github.io/beyond-monologue/ で公開されている。
関連論文リスト
- F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training [38.868221563879366]
完全なダイアログモデルは、迅速な応答を提供すると同時に話すことを目指している。
この問題に対処するために、連続した文と待ち時間からなる自然なモノローグを導入する。
音声と自然なモノローグを意味的に整合させるには,適切なトレーニングパラダイムが不可欠である。
デュアルトレーニングパラダイムは、異なるトレーニングステージ間でモノローグの位置を交換する。
FLM-AudioAudioは,実験結果から確認され,優れた応答特性とチャット体験の相違が認められた。
論文 参考訳(メタデータ) (2025-09-02T17:18:49Z) - Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance [47.2016265294791]
FD-SLM(Full-Duplex Speech Language Models)は、人間のような対話のためのニュアンスな2話者対話パターンをキャプチャする。
会話能力は、純粋なテキスト会話に比べて劣化することが多い。
そこで我々は,人間の会話計画を模倣する新しいプランニング・インスパイアされたアプローチであるTurnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:49:43Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。