論文の概要: ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance
- arxiv url: http://arxiv.org/abs/2411.15436v1
- Date: Sat, 23 Nov 2024 03:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:17.461945
- Title: ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance
- Title(参考訳): ConsistentAvatar: テンポラル誘導による頭部アバターを拡散させる学習
- Authors: Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang,
- Abstract要約: 完全一貫した高忠実な会話アバター生成のための新しいフレームワークであるConsistentAvatarを提案する。
本手法は,隣接するフレーム間の安定性の時間的表現をモデル化する。
大規模な実験により、ConsistentAvatarは生成した外観、3D、表現、時間的一貫性について最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 27.1886214162329
- License:
- Abstract: Diffusion models have shown impressive potential on talking head generation. While plausible appearance and talking effect are achieved, these methods still suffer from temporal, 3D or expression inconsistency due to the error accumulation and inherent limitation of single-image generation ability. In this paper, we propose ConsistentAvatar, a novel framework for fully consistent and high-fidelity talking avatar generation. Instead of directly employing multi-modal conditions to the diffusion process, our method learns to first model the temporal representation for stability between adjacent frames. Specifically, we propose a Temporally-Sensitive Detail (TSD) map containing high-frequency feature and contours that vary significantly along the time axis. Using a temporal consistent diffusion module, we learn to align TSD of the initial result to that of the video frame ground truth. The final avatar is generated by a fully consistent diffusion module, conditioned on the aligned TSD, rough head normal, and emotion prompt embedding. We find that the aligned TSD, which represents the temporal patterns, constrains the diffusion process to generate temporally stable talking head. Further, its reliable guidance complements the inaccuracy of other conditions, suppressing the accumulated error while improving the consistency on various aspects. Extensive experiments demonstrate that ConsistentAvatar outperforms the state-of-the-art methods on the generated appearance, 3D, expression and temporal consistency. Project page: https://njust-yang.github.io/ConsistentAvatar.github.io/
- Abstract(参考訳): 拡散モデルは、対話型ヘッド生成に驚くべき可能性を示している。
これらの手法は, 時間的, 3次元的, 表現的不整合に悩まされているが, 誤りの蓄積と単一画像生成能力の固有の限界が原因である。
本稿では,完全一貫した高忠実な発話アバター生成のための新しいフレームワークであるConsistentAvatarを提案する。
拡散過程にマルチモーダル条件を直接適用するのではなく,隣接するフレーム間の安定性の時間的表現をモデル化する。
具体的には、時間軸に沿って大きく変化する高周波の特徴と輪郭を含む時間知覚的詳細マップを提案する。
時間的一貫した拡散モジュールを用いて、初期結果のTLDとビデオフレーム基底の真理との整合を学習する。
最終アバターは、完全に一貫した拡散モジュールによって生成され、アライメントされたTLD、粗い頭部正常、そして感情の即応的な埋め込みに条件付けられている。
時間的パターンを表わすTSDは拡散過程を制約し,時間的安定な発声頭部を生成する。
さらに、その信頼性の高いガイダンスは、他の条件の不正確さを補完し、様々な側面の整合性を改善しながら、蓄積したエラーを抑える。
大規模な実験により、ConsistentAvatarは生成した外観、3D、表現、時間的一貫性について最先端の手法より優れていることが示された。
プロジェクトページ: https://njust-yang.github.io/ConsistentAvatar.github.io/
関連論文リスト
- ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization [5.55656676725821]
我々はConsistentDreamerを紹介し、まず、固定された複数ビュー前の画像とそれらの間のランダムなビューの集合を生成する。
これにより、SDSの損失によって導かれるビュー間の相違を抑え、一貫した粗い形状を確保する。
各イテレーションでは、生成した複数ビュー前の画像も詳細再構築に使用しています。
論文 参考訳(メタデータ) (2025-02-13T12:49:25Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z) - GECCO: Geometrically-Conditioned Point Diffusion Models [60.28388617034254]
テキスト上で条件付き画像を生成する拡散モデルが最近,コンピュータビジョンコミュニティをはるかに超えている。
ここでは、無条件および条件付きの両方の点雲を画像で生成するという、関連する問題に取り組む。
後者では,スパーク画像の特徴を点雲に投影することに基づく,幾何学的動機付けによる新しい条件付け手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T13:45:44Z) - ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion
Trajectories [144.03939123870416]
本稿では,前処理に条件を導入することで,新しい条件拡散モデルを提案する。
いくつかのシフト規則に基づいて各条件に対して排他的拡散軌跡を割り当てるために、余剰潜在空間を用いる。
我々は textbfShiftDDPMs と呼ぶメソッドを定式化し、既存のメソッドの統一的な視点を提供する。
論文 参考訳(メタデータ) (2023-02-05T12:48:21Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。