論文の概要: Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation
- arxiv url: http://arxiv.org/abs/2412.00719v2
- Date: Tue, 25 Mar 2025 09:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:15.394285
- Title: Synergizing Motion and Appearance: Multi-Scale Compensatory Codebooks for Talking Head Video Generation
- Title(参考訳): 動きと外観の相乗化:ヘッドビデオ生成のためのマルチスケール補償コードブック
- Authors: Shuling Zhao, Fa-Ting Hong, Xiaoshui Huang, Dan Xu,
- Abstract要約: トーキングヘッドビデオ生成は、音源画像から人物の身元と運転映像からの動作を保存したリアルなトーキングヘッドビデオを作成することを目的としている。
この分野における有望な進歩にもかかわらず、正確なポーズときめ細かい顔の細部を同時に生成することは、依然として困難かつ重要な問題である。
顔の動き条件と外観特徴の両方を効果的に洗練するために、動作と外観のコードブックを共同で学習し、マルチスケールのコードブック補償を実行することを提案する。
- 参考スコア(独自算出の注目度): 15.233839480474206
- License:
- Abstract: Talking head video generation aims to generate a realistic talking head video that preserves the person's identity from a source image and the motion from a driving video. Despite the promising progress made in the field, it remains a challenging and critical problem to generate videos with accurate poses and fine-grained facial details simultaneously. Essentially, facial motion is often highly complex to model precisely, and the one-shot source face image cannot provide sufficient appearance guidance during generation due to dynamic pose changes. To tackle the problem, we propose to jointly learn motion and appearance codebooks and perform multi-scale codebook compensation to effectively refine both the facial motion conditions and appearance features for talking face image decoding. Specifically, the designed multi-scale motion and appearance codebooks are learned simultaneously in a unified framework to store representative global facial motion flow and appearance patterns. Then, we present a novel multi-scale motion and appearance compensation module, which utilizes a transformer-based codebook retrieval strategy to query complementary information from the two codebooks for joint motion and appearance compensation. The entire process produces motion flows of greater flexibility and appearance features with fewer distortions across different scales, resulting in a high-quality talking head video generation framework. Extensive experiments on various benchmarks validate the effectiveness of our approach and demonstrate superior generation results from both qualitative and quantitative perspectives when compared to state-of-the-art competitors.
- Abstract(参考訳): トーキングヘッドビデオ生成は、音源画像から人物の身元と運転映像からの動作を保存したリアルなトーキングヘッドビデオを作成することを目的としている。
この分野における有望な進歩にもかかわらず、正確なポーズときめ細かい顔の細部を同時に生成することは、依然として困難かつ重要な問題である。
基本的に、顔の動きは正確にモデル化するのに非常に複雑であり、ダイナミックなポーズの変化により生成中に十分な外観指示を与えることができない。
そこで本研究では,顔の動き条件と顔画像復号のための外観特徴の両方を効果的に洗練するために,動作と外観のコードブックを共同で学習し,マルチスケールのコードブック補償を実行することを提案する。
具体的には、デザインされたマルチスケールモーションと外見のコードブックを統合されたフレームワークで同時に学習し、代表的なグローバルな顔の動きの流れと外見のパターンを記憶する。
そこで, トランスフォーマーを用いたコードブック検索手法を用いて, 共同動作と外観補償のための2つのコードブックの補完情報を検索する, マルチスケール動作・外観補償モジュールを提案する。
プロセス全体では、柔軟性と外観が向上し、さまざまなスケールの歪みが少ないモーションフローが生成され、高品質なトーキングヘッドビデオ生成フレームワークが実現される。
各種ベンチマーク実験により,提案手法の有効性を検証し,現状の競合相手と比較して質的,定量的両面から優れた生成結果が得られた。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文 参考訳(メタデータ) (2024-12-10T18:59:55Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。