論文の概要: NOVA3D: Normal Aligned Video Diffusion Model for Single Image to 3D Generation
- arxiv url: http://arxiv.org/abs/2506.07698v1
- Date: Mon, 09 Jun 2025 12:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.945849
- Title: NOVA3D: Normal Aligned Video Diffusion Model for Single Image to 3D Generation
- Title(参考訳): NOVA3D:1次元画像から3次元画像への正規配向ビデオ拡散モデル
- Authors: Yuxiao Yang, Peihao Li, Yuhong Zhang, Junzhe Lu, Xianglong He, Minghan Qin, Weitao Wang, Haoqian Wang,
- Abstract要約: 革新的な単一画像から3D生成フレームワークであるNOVA3Dを紹介する。
私たちの重要な洞察は、事前訓練されたビデオ拡散モデルから、強力な3Dプリエントを活用することです。
色と幾何学的領域間の情報交換を容易にするため,GTA(Geometry-Temporal Alignment)アテンション機構を提案する。
また,マルチビュー不正確な問題に対処することで,テクスチャの忠実度を向上させるデコンフリクト幾何融合アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 12.213398557667443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D AI-generated content (AIGC) has made it increasingly accessible for anyone to become a 3D content creator. While recent methods leverage Score Distillation Sampling to distill 3D objects from pretrained image diffusion models, they often suffer from inadequate 3D priors, leading to insufficient multi-view consistency. In this work, we introduce NOVA3D, an innovative single-image-to-3D generation framework. Our key insight lies in leveraging strong 3D priors from a pretrained video diffusion model and integrating geometric information during multi-view video fine-tuning. To facilitate information exchange between color and geometric domains, we propose the Geometry-Temporal Alignment (GTA) attention mechanism, thereby improving generalization and multi-view consistency. Moreover, we introduce the de-conflict geometry fusion algorithm, which improves texture fidelity by addressing multi-view inaccuracies and resolving discrepancies in pose alignment. Extensive experiments validate the superiority of NOVA3D over existing baselines.
- Abstract(参考訳): 3D AI生成コンテンツ(AIGC)は、誰でも3Dコンテンツクリエーターになれるようになってきた。
最近の方法では、Score Distillation Smplingを用いて、事前訓練された画像拡散モデルから3Dオブジェクトを抽出するが、多くの場合、不十分な3D先行に悩まされ、マルチビューの整合性が不十分になる。
本研究では,革新的な単一画像から3D生成フレームワークであるNOVA3Dを紹介する。
我々の重要な洞察は、事前訓練されたビデオ拡散モデルから強力な3D先行情報を活用し、マルチビュービデオ微調整中に幾何情報を統合することである。
色と幾何学的領域間の情報交換を容易にするため,GTA(Geometry-Temporal Alignment)アテンション機構を提案する。
さらに,多視点不正確な問題に対処し,ポーズアライメントにおける不一致を解消することにより,テクスチャの忠実度を向上させるデコンフリクト幾何融合アルゴリズムを提案する。
大規模な実験は、既存のベースラインよりもNOVA3Dの方が優れていることを検証した。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.36303976374455]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何や知覚をシームレスに統合する新しい手法を提案する。
提案手法の高忠実度化を実証し, 新規なビュー合成法と3次元再構成法とを比較検討した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。
我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文 参考訳(メタデータ) (2024-05-30T17:59:54Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Multi-view Inversion for 3D-aware Generative Adversarial Networks [3.95944314850151]
人間の頭部に対する現在の3D GANインバージョン法は、通常、1つの正面像のみを使用して3Dヘッドモデル全体を再構築する。
これにより、マルチビューデータやダイナミックビデオが利用可能になったときに意味のある情報が残される。
提案手法は既存の最先端3D GANインバージョン技術を利用して,同一対象の複数のビューを一貫した同時インバージョンを可能にする。
論文 参考訳(メタデータ) (2023-12-08T19:28:40Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。