論文の概要: EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence
- arxiv url: http://arxiv.org/abs/2604.23325v1
- Date: Sat, 25 Apr 2026 14:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.272036
- Title: EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence
- Title(参考訳): EAD-Net:空間的リファインメントと時間的コヒーレンスを考慮した感情認識型トーキングヘッド生成
- Authors: Yahui Li, Yinfeng Yu, Liejun Wang, Shengjie Shen,
- Abstract要約: 現在の生成方法は単純な感情ラベルに依存しており、セマンティックな情報が不足している。
そこで我々は, SyncNet監督とTREPA(Temporal Representation Alignment)を導入し, リップ同期劣化を軽減した。
本手法は, リップシンク精度, 時間的一貫性, 感情的正確性の観点から, 既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 18.56589711473938
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotionally talking head video generation aims to generate expressive portrait videos with accurate lip synchronization and emotional facial expressions. Current methods rely on simple emotional labels, leading to insufficient semantic information. While introducing high-level semantics enhances expressiveness, it easily causes lip-sync degradation. Furthermore, mainstream generation methods struggle to balance computational efficiency and global motion awareness in long videos and suffer from poor temporal coherence. Therefore, we propose an \textbf{E}motion-\textbf{A}ware \textbf{D}iffusion model-based \textbf{Net}work, called \textbf{EAD-Net}. We introduce SyncNet supervision and Temporal Representation Alignment (TREPA) to mitigate lip-sync degradation caused by multi-modal fusion. To model complex spatio-temporal dependencies in long video sequences, we propose a Spatio-Temporal Directional Attention (STDA) mechanism that captures global motion patterns through strip attention. Additionally, we design a Temporal Frame graph Reasoning Module (TFRM) to explicitly model temporal coherence between video frames through graph structure learning. To enhance emotional semantic control, a large language model is employed to extract textual descriptions from real videos, serving as high-level semantic guidance. Experiments on the HDTF and MEAD datasets demonstrate that our method outperforms existing methods in terms of lip-sync accuracy, temporal consistency, and emotional accuracy.
- Abstract(参考訳): 感情的に話すヘッドビデオ生成は、正確な唇の同期と感情的な表情で表現力のあるポートレートビデオを生成することを目的としている。
現在の手法は単純な感情ラベルに依存しており、セマンティックな情報が不足している。
高レベルのセマンティクスを導入することで表現性が向上する一方で、リップシンクの劣化が容易に起こる。
さらに、主流生成手法は、長いビデオにおいて計算効率とグローバルな動き認識のバランスをとろうとし、時間的コヒーレンスに悩まされる。
そこで本稿では, textbf{E}motion-\textbf{A}ware \textbf{D}iffusion model-based \textbf{Net}work, called \textbf{EAD-Net}を提案する。
マルチモーダル核融合によるリップ同期劣化を緩和するために, SyncNet の監督と TREPA (Temporal Representation Alignment) を導入する。
長いビデオシーケンスにおける時空間依存性をモデル化するために,ストリップアテンションを通してグローバルな動きパターンをキャプチャする時空間指向(STDA)機構を提案する。
さらに、時間フレームグラフ推論モジュール(TFRM)を設計し、グラフ構造学習を通じてビデオフレーム間の時間的コヒーレンスを明示的にモデル化する。
感情的セマンティックコントロールを強化するため、大規模言語モデルを用いて実ビデオからテキスト記述を抽出し、ハイレベルなセマンティックガイダンスとして機能する。
HDTFおよびMEADデータセットを用いた実験により,従来の手法よりもリップシンク精度,時間的一貫性,感情的精度が優れていた。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation [18.544615425772903]
手話翻訳(SLT)は、視覚情報と言語情報の間のモダリティギャップを埋めることを必要とする課題である。
我々は,ビデオLLMの時間認識推論機能を活用する新しいGloss-free SLTフレームワークであるtextbfBeyondGlossを紹介する。
BeyondtextはPhoenixT14とCSL-Dailyベンチマークで最先端のパフォーマンスを実現し、提案したフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2025-07-31T14:06:07Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model [64.11605839142348]
textbfMotion-priors textbfConditional textbfDiffusion textbfModel(textbfMCDM)を導入する。
textbfTalkingFace-Wildデータセットもリリースしています。
論文 参考訳(メタデータ) (2025-02-13T17:50:23Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。