論文の概要: Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
- arxiv url: http://arxiv.org/abs/2503.15851v2
- Date: Tue, 25 Mar 2025 04:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:50.645292
- Title: Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
- Title(参考訳): Zero-1-to-A:ビデオ拡散による頭部アバターへのゼロショット1枚画像
- Authors: Zhenglin Zhou, Fan Ma, Hehe Fan, Tat-Seng Chua,
- Abstract要約: 我々は、4次元アバター再構成のための空間的・時間的整合性データセットを合成する頑健なZero-1-to-Aを提案する。
実験により、Zero-1-to-Aは既存の拡散法と比較して忠実さ、アニメーション品質、レンダリング速度を改善することが示された。
- 参考スコア(独自算出の注目度): 61.938480115119596
- License:
- Abstract: Animatable head avatar generation typically requires extensive data for training. To reduce the data requirements, a natural solution is to leverage existing data-free static avatar generation methods, such as pre-trained diffusion models with score distillation sampling (SDS), which align avatars with pseudo ground-truth outputs from the diffusion model. However, directly distilling 4D avatars from video diffusion often leads to over-smooth results due to spatial and temporal inconsistencies in the generated video. To address this issue, we propose Zero-1-to-A, a robust method that synthesizes a spatial and temporal consistency dataset for 4D avatar reconstruction using the video diffusion model. Specifically, Zero-1-to-A iteratively constructs video datasets and optimizes animatable avatars in a progressive manner, ensuring that avatar quality increases smoothly and consistently throughout the learning process. This progressive learning involves two stages: (1) Spatial Consistency Learning fixes expressions and learns from front-to-side views, and (2) Temporal Consistency Learning fixes views and learns from relaxed to exaggerated expressions, generating 4D avatars in a simple-to-complex manner. Extensive experiments demonstrate that Zero-1-to-A improves fidelity, animation quality, and rendering speed compared to existing diffusion-based methods, providing a solution for lifelike avatar creation. Code is publicly available at: https://github.com/ZhenglinZhou/Zero-1-to-A.
- Abstract(参考訳): アニマタブルヘッドアバター生成は通常、トレーニングのために広範なデータを必要とする。
データ要求を減らすために、既存のデータフリーな静的アバター生成手法(例えば、事前訓練された拡散モデルとスコア蒸留サンプリング(SDS))を活用する。
しかし、ビデオ拡散から直接4Dアバターを蒸留すると、生成したビデオの空間的および時間的不整合による過スムーズな結果が生じることが多い。
この問題を解決するために,ビデオ拡散モデルを用いて4次元アバター再構成のための空間的・時間的整合性データセットを合成するZero-1-to-Aを提案する。
具体的には、Zero-1-to-Aはビデオデータセットを反復的に構築し、アニマタブルなアバターをプログレッシブな方法で最適化し、アバターの品質が学習プロセスを通してスムーズかつ一貫して向上することを保証する。
この進行学習は,(1)空間的一貫性学習が表現を修正し,前向きの視点から学習する,(2)時間的一貫性学習がビューを修正し,過大評価された表現から学習し,簡単な方法で4Dアバターを生成する,という2段階を含む。
大規模な実験により、Zero-1-to-Aは既存の拡散法に比べて忠実さ、アニメーション品質、レンダリング速度を改善し、ライフライクなアバター生成のソリューションを提供することが示された。
コードはhttps://github.com/ZhenglinZhou/Zero-1-to-A.comで公開されている。
関連論文リスト
- Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [85.07446744308247]
我々は,OSA-LCM (One-Step Avatar Latent Consistency Model)を導入し,リアルタイム拡散に基づくアバターを実現する。
提案手法は,既存の手法に匹敵する映像品質を実現するが,サンプリングステップは1回しか必要とせず,処理速度は10倍以上に向上する。
論文 参考訳(メタデータ) (2024-12-18T03:42:42Z) - 3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling [37.11454674584874]
ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。
実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
論文 参考訳(メタデータ) (2024-12-16T09:37:52Z) - ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance [27.1886214162329]
完全一貫した高忠実な会話アバター生成のための新しいフレームワークであるConsistentAvatarを提案する。
本手法は,隣接するフレーム間の安定性の時間的表現をモデル化する。
大規模な実験により、ConsistentAvatarは生成した外観、3D、表現、時間的一貫性について最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-23T03:43:09Z) - Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction [97.924188608301]
単一視点からのオブジェクト生成とシーン再構成のための新しい1段3次元拡散モデルDiffusionGSを提案する。
DiffusionGSはビュー一貫性を強制するために、各タイミングで3Dガウス点雲を直接出力する。
DiffusionGSは、オブジェクトやシーンのPSNR/FIDにおいて2.20dB/23.25と1.34dB/19.16の改善をもたらすことを示した。
論文 参考訳(メタデータ) (2024-11-21T18:21:24Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - UltrAvatar: A Realistic Animatable 3D Avatar Diffusion Model with Authenticity Guided Textures [80.047065473698]
幾何学の忠実度を高めたUltrAvatarと呼ばれる新しい3次元アバター生成手法を提案し,光を必要とせずに物理ベースレンダリング(PBR)テクスチャの質を向上する。
提案手法の有効性とロバスト性を実証し,実験において最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-01-20T01:55:17Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。