論文の概要: ECHO: Towards Emotionally Appropriate and Contextually Aware Interactive Head Generation
- arxiv url: http://arxiv.org/abs/2603.17427v1
- Date: Wed, 18 Mar 2026 07:07:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.559529
- Title: ECHO: Towards Emotionally Appropriate and Contextually Aware Interactive Head Generation
- Title(参考訳): ECHO: 感情的適切かつコンテキスト的対話型ヘッドジェネレーションを目指して
- Authors: Xiangyu Kong, Xiaoyu Jin, Yihan Pan, Haoqin Sun, Hengde Zhu, Xiaoming Xu, Xiaoming Wei, Lu Liu, Siyang Song,
- Abstract要約: 対話型ヘッドジェネレーション (Interactive Head Generation, IHG) は、このような機能をエミュレートしたライフライクなアバターヘッドビデオを合成することを目的としている。
ECHOは、Long-range Contextual Understanding (LCU) コンポーネントとブロックワイド空間対応のDecoupled Cross-attention Modulation (SDCM) モジュールの2つの主要なコンポーネントからなる新しいIHGフレームワークである。
- 参考スコア(独自算出の注目度): 37.457960520410246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural face-to-face interaction, participants seamlessly alternate between speaking and listening, producing facial behaviors (FBs) that are finely informed by long-range context and naturally exhibit contextual appropriateness and emotional rationality. Interactive Head Generation (IHG) aims to synthesize lifelike avatar head video emulating such capabilities. Existing IHG methods typically condition on dual-track signals (i.e., human user's behaviors and pre-defined audio for avatar) within a short temporal window, jointly driving generation of avatar's audio-aligned lip articulation and non-verbal FBs. However, two main challenges persist in these methods: (i) the reliance on short-clip behavioral cues without long-range contextual modeling leads them to produce facial behaviors lacking contextual appropriateness; and (ii) the entangled, role-agnostic fusion of dual-track signals empirically introduces cross-signal interference, potentially compromising lip-region synchronization during speaking. To this end, we propose ECHO, a novel IHG framework comprising two key components: a Long-range Contextual Understanding (LCU) component that facilitates contextual understanding of both behavior-grounded dynamics and linguistic-driven affective semantics to promote contextual appropriateness and emotional rationality of synthesized avatar FBs; and a block-wise Spatial-aware Decoupled Cross-attention Modulation (SDCM) module, that preserves self-audio-driven lip articulation while adaptively integrating user contextual behavioral cues for non-lip facial regions, complemented by our designed two-stage training paradigm, to jointly enhance lip synchronization and visual fidelity. Extensive experiments demonstrate the effectiveness of proposed components and ECHO's superior IHG performance.
- Abstract(参考訳): 自然な対面相互作用では、参加者は会話と聞き取りをシームレスに交互に交互に行い、長距離の文脈によって微妙に知らされ、文脈的適切さと感情的合理性を示す顔行動(FB)を生成する。
対話型ヘッドジェネレーション (Interactive Head Generation, IHG) は、このような機能をエミュレートしたライフライクなアバターヘッドビデオを合成することを目的としている。
既存のIHG法は、通常は2トラック信号(例えば、人間の行動とアバターのための事前定義されたオーディオ)を短時間の窓の中で条件付けし、アバターの音声対応唇調音と非言語的FBの生成を共同で駆動する。
しかし、これらの方法には2つの大きな課題が残っている。
(i)長期的文脈モデリングを伴わない短時間の行動手段への依存は、文脈的適切性に欠ける顔行動を生み出すことにつながる。
(II) 二重トラック信号の絡み合った役割に依存しない融合は, 交叉干渉を経験的に導入し, 発話中の唇領域同期を阻害する可能性がある。
本研究の目的は,2つの重要なコンポーネントからなる新しいIHGフレームワークであるECHOを提案することである。Long-range Contextual Understanding (LCU) コンポーネントは,Avatar FBsの文脈的適切性と感情的合理性を促進するために,行動基底力学と言語駆動的情緒的意味論の両方の文脈的理解を促進する。
広範囲にわたる実験は、提案されたコンポーネントの有効性とECHOの優れたIHG性能を示す。
関連論文リスト
- Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。
本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。
ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [15.886402427095515]
対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。
従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。
本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
論文 参考訳(メタデータ) (2025-07-01T06:38:14Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。