論文の概要: SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation
- arxiv url: http://arxiv.org/abs/2505.05475v1
- Date: Thu, 08 May 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:50.002225
- Title: SVAD: From Single Image to 3D Avatar via Synthetic Data Generation with Video Diffusion and Data Augmentation
- Title(参考訳): SVAD:ビデオ拡散とデータ拡張による合成データ生成による単一画像から3Dアバターへ
- Authors: Yonwoo Choi,
- Abstract要約: 1枚の画像から得られる高品質のアニマタブルな3Dアバターは、コンピュータビジョンにおいて重要な課題である。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating high-quality animatable 3D human avatars from a single image remains a significant challenge in computer vision due to the inherent difficulty of reconstructing complete 3D information from a single viewpoint. Current approaches face a clear limitation: 3D Gaussian Splatting (3DGS) methods produce high-quality results but require multiple views or video sequences, while video diffusion models can generate animations from single images but struggle with consistency and identity preservation. We present SVAD, a novel approach that addresses these limitations by leveraging complementary strengths of existing techniques. Our method generates synthetic training data through video diffusion, enhances it with identity preservation and image restoration modules, and utilizes this refined data to train 3DGS avatars. Comprehensive evaluations demonstrate that SVAD outperforms state-of-the-art (SOTA) single-image methods in maintaining identity consistency and fine details across novel poses and viewpoints, while enabling real-time rendering capabilities. Through our data augmentation pipeline, we overcome the dependency on dense monocular or multi-view training data typically required by traditional 3DGS approaches. Extensive quantitative, qualitative comparisons show our method achieves superior performance across multiple metrics against baseline models. By effectively combining the generative power of diffusion models with both the high-quality results and rendering efficiency of 3DGS, our work establishes a new approach for high-fidelity avatar generation from a single image input.
- Abstract(参考訳): 1つの画像から高品質のアニマタブルな3Dアバターを作成することは、単一の視点から完全な3D情報を再構築することが本質的に困難であるため、コンピュータビジョンにおいて重要な課題である。
3D Gaussian Splatting (3DGS)メソッドは高品質な結果を生成するが、複数のビューやビデオシーケンスを必要とする。
既存の手法の相補的強みを活用することによって,これらの制約に対処する新しいアプローチSVADを提案する。
本手法は,映像拡散により合成トレーニングデータを生成し,画像保存モジュールと画像復元モジュールを併用し,改良したデータを用いて3DGSアバターを訓練する。
全体的な評価では、SVADは、リアルタイムレンダリング機能を実現しつつ、アイデンティティの一貫性と、新しいポーズや視点をまたいだ細部の詳細を維持するために、最先端のSOTA(State-of-the-art Single-image Method)よりも優れていることが示されている。
データ拡張パイプラインを通じて、従来の3DGSアプローチで要求される、高密度なモノラルまたはマルチビューのトレーニングデータへの依存を克服します。
大規模で定性的な比較により,本手法はベースラインモデルに対して,複数の指標において優れた性能を示す。
拡散モデルの生成力を高画質な結果と3DGSのレンダリング効率の両方に効果的に組み合わせることで、1枚の画像入力から高忠実度アバター生成のための新しいアプローチを確立する。
関連論文リスト
- HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion [50.02316409061741]
HuGDiffusionは、シングルビュー入力画像から人間の文字の新しいビュー合成(NVS)を実現するための学習パイプラインである。
本研究では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。
我々のHuGDiffusionは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-25T01:00:33Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。