論文の概要: Controlling Avatar Diffusion with Learnable Gaussian Embedding
- arxiv url: http://arxiv.org/abs/2503.15809v1
- Date: Thu, 20 Mar 2025 02:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:30.864548
- Title: Controlling Avatar Diffusion with Learnable Gaussian Embedding
- Title(参考訳): ガウス埋め込みによるアバター拡散の制御
- Authors: Xuan Gao, Jingtao Zhou, Dongyu Liu, Yuqi Zhou, Juyong Zhang,
- Abstract要約: 我々は、最適化可能で、密度が高く、表現可能で、3次元一貫した新しい制御信号表現を導入する。
複数のポーズとアイデンティティを持つ大規模データセットを合成する。
我々のモデルは、現実主義、表現性、および3次元整合性の観点から、既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 27.651478116386354
- License:
- Abstract: Recent advances in diffusion models have made significant progress in digital human generation. However, most existing models still struggle to maintain 3D consistency, temporal coherence, and motion accuracy. A key reason for these shortcomings is the limited representation ability of commonly used control signals(e.g., landmarks, depth maps, etc.). In addition, the lack of diversity in identity and pose variations in public datasets further hinders progress in this area. In this paper, we analyze the shortcomings of current control signals and introduce a novel control signal representation that is optimizable, dense, expressive, and 3D consistent. Our method embeds a learnable neural Gaussian onto a parametric head surface, which greatly enhances the consistency and expressiveness of diffusion-based head models. Regarding the dataset, we synthesize a large-scale dataset with multiple poses and identities. In addition, we use real/synthetic labels to effectively distinguish real and synthetic data, minimizing the impact of imperfections in synthetic data on the generated head images. Extensive experiments show that our model outperforms existing methods in terms of realism, expressiveness, and 3D consistency. Our code, synthetic datasets, and pre-trained models will be released in our project page: https://ustc3dv.github.io/Learn2Control/
- Abstract(参考訳): 近年の拡散モデルの発展は、デジタル・ヒューマン・ジェネレーションに大きな進歩をもたらした。
しかし、既存のほとんどのモデルは3D一貫性、時間的コヒーレンス、動きの精度を維持するのに苦戦している。
これらの欠点の鍵となる理由は、一般的に使用される制御信号(例えば、ランドマーク、奥行きマップなど)の限られた表現能力である。
さらに、アイデンティティの多様性の欠如と、公開データセットの変動により、この分野の進歩はさらに妨げられる。
本稿では、電流制御信号の欠点を分析し、最適化可能で、密度が高く、表現可能で、3D一貫性のある新しい制御信号表現を導入する。
本手法は学習可能なニューラルガウスをパラメトリックヘッド表面に埋め込むことにより,拡散型ヘッドモデルの一貫性と表現性を大幅に向上させる。
データセットに関しては、複数のポーズとアイデンティティを持つ大規模データセットを合成する。
さらに,実・合成ラベルを用いて実・合成データを効果的に識別し,生成した頭部画像に対する合成データの不完全性の影響を最小限に抑える。
大規模な実験により,本モデルは現実主義,表現性,3次元整合性の観点から既存手法よりも優れていた。
私たちのコード、合成データセット、事前トレーニングされたモデルは、プロジェクトページでリリースされます。
関連論文リスト
- Synthetic Prior for Few-Shot Drivable Head Avatar Inversion [61.51887011274453]
そこで本研究では,合成前駆体に基づく乾燥可能な頭部アバターの少数ショット逆転法であるSynShotを提案する。
合成データのみに基づいて訓練された機械学習モデルに着想を得て,合成頭部の大きなデータセットから先行モデルを学習する手法を提案する。
我々は3次元ガウススプラッティングとUVテクスチャ空間におけるガウスパラメータを出力する畳み込みエンコーダデコーダを用いて頭部アバターをモデル化する。
論文 参考訳(メタデータ) (2025-01-12T19:01:05Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - SynthForge: Synthesizing High-Quality Face Dataset with Controllable 3D Generative Models [8.004597666699036]
生成モデルの最近の進歩は、フォトリアリスティックデータを制御可能な方法でレンダリングする能力を解き放った。
しかし、下流タスクのトレーニングにそのようなモデルを用いて生成されたデータの使用は、主に3D一貫性のあるアノテーションが欠如しているため、未調査のままである。
本実験は, 生成した合成データのみを用いた最先端モデルに対する競合性能を示し, 下流タスクの解決の可能性を示した。
論文 参考訳(メタデータ) (2024-06-12T03:15:15Z) - HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。
本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。
生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:48:31Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - RGB-D Mapping and Tracking in a Plenoxel Radiance Field [5.239559610798646]
ビュー合成モデルと3次元再構成モデルの間に重要な相違点を示す。
また、一般的な外向きのシーンにおける正確な幾何学をモデル化するために、奥行きセンサが不可欠である理由についてもコメントする。
提案手法は,タスクのマッピングと追跡を両立させるとともに,競合するニューラルネットワークのアプローチよりも高速である。
論文 参考訳(メタデータ) (2023-07-07T06:05:32Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。