論文の概要: InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance
- arxiv url: http://arxiv.org/abs/2603.23132v1
- Date: Tue, 24 Mar 2026 12:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.47514
- Title: InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance
- Title(参考訳): InterDyad: 中間視覚誘導による対話型対話型音声合成
- Authors: Dongwei Pan, Longwei Guo, Jiazhi Guan, Luying Huang, Yiding Li, Haojie Liu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou,
- Abstract要約: 対話型ダイアディック力学の合成フレームワークであるInterDyadを提案する。
我々はまず、参照ビデオから抽出されたアイデンティティ非依存の動作先に基づいて、ビデオの再現を実現するInteractiveを設計する。
MLLM(Multimodal Large Language Model)を利用して,音声から言語意図を抽出し,反応の正確なタイミングと適切性を決定する。
包括的実験により、InterDyadは、自然と文脈的に基底付けられた2人のインタラクションを生成において、最先端の手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 20.740979380270126
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite progress in speech-to-video synthesis, existing methods often struggle to capture cross-individual dependencies and provide fine-grained control over reactive behaviors in dyadic settings. To address these challenges, we propose InterDyad, a framework that enables naturalistic interactive dynamics synthesis via querying structural motion guidance. Specifically, we first design an Interactivity Injector that achieves video reenactment based on identity-agnostic motion priors extracted from reference videos. Building upon this, we introduce a MetaQuery-based modality alignment mechanism to bridge the gap between conversational audio and these motion priors. By leveraging a Multimodal Large Language Model (MLLM), our framework is able to distill linguistic intent from audio to dictate the precise timing and appropriateness of reactions. To further improve lip-sync quality under extreme head poses, we propose Role-aware Dyadic Gaussian Guidance (RoDG) for enhanced lip-synchronization and spatial consistency. Finally, we introduce a dedicated evaluation suite with novelly designed metrics to quantify dyadic interaction. Comprehensive experiments demonstrate that InterDyad significantly outperforms state-of-the-art methods in producing natural and contextually grounded two-person interactions. Please refer to our project page for demo videos: https://interdyad.github.io/.
- Abstract(参考訳): 音声とビデオの合成の進歩にもかかわらず、既存の手法はしばしば、個人間の依存関係を捕捉し、ダイアディック環境でのリアクティブな振る舞いをきめ細かな制御に苦慮している。
これらの課題に対処するために、構造的動作ガイダンスをクエリすることで、自然主義的インタラクティブなダイナミクス合成を可能にするフレームワークであるInterDyadを提案する。
具体的には、まず、参照ビデオから抽出されたアイデンティティ非依存の動作先に基づいて、ビデオの再現を実現するInteractive Injectorを設計する。
そこで我々は,MetaQueryに基づくモーメントアライメント機構を導入し,対話型音声とこれらの動作先行のギャップを埋める。
MLLM(Multimodal Large Language Model)を利用して,音声から言語意図を抽出し,反応の正確なタイミングと適切性を決定する。
極端頭部ポーズ下での口唇音質の向上を目的として, 口唇音の強調と空間的整合性向上を目的としたロールアウェアDyadic Gaussian Guidance (RoDG)を提案する。
最後に, Dyadic インタラクションを定量化するための, 新しく設計されたメトリクスを備えた専用評価スイートを提案する。
包括的実験により、InterDyadは、自然と文脈的に基底付けられた2人のインタラクションを生成において、最先端の手法を著しく上回っていることが示された。
デモビデオについては、こちらのプロジェクトページを参照してください。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - InteracTalker: Prompt-Based Human-Object Interaction with Co-Speech Gesture Generation [1.7523719472700858]
我々は,対話型音声生成と対話型音声対話をシームレスに統合する新しいフレームワークであるInteracTalkerを紹介する。
本フレームワークは,動作条件に適応して独立したトレーニングを可能にする汎用モーション適応モジュールを利用する。
InteracTalkerは、これらの以前分離されたタスクをうまく統合し、音声のジェスチャー生成とオブジェクト-インタラクション合成の両方において、従来の手法より優れている。
論文 参考訳(メタデータ) (2025-12-14T12:29:49Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。