論文の概要: Boosting3D: High-Fidelity Image-to-3D by Boosting 2D Diffusion Prior to
3D Prior with Progressive Learning
- arxiv url: http://arxiv.org/abs/2311.13617v1
- Date: Wed, 22 Nov 2023 06:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:48:08.037838
- Title: Boosting3D: High-Fidelity Image-to-3D by Boosting 2D Diffusion Prior to
3D Prior with Progressive Learning
- Title(参考訳): Boosting3D: 進行学習に先立って2次元拡散を増強した高忠実画像から3次元画像へ
- Authors: Kai Yu, Jinlin Liu, Mengyang Feng, Miaomiao Cui, Xuansong Xie
- Abstract要約: この研究は、合理的な幾何学的構造をモデル化することにより、単一の画像誘導3次元生成におけるビュー整合性問題を解決することを目的とする。
我々は、オリジナル画像とNeRFのレンダリング出力を用いて、対象オブジェクトに対するオブジェクトレベルのLoRAを訓練する。
最終段階では、トレーニングされたNeRFからメッシュを抽出し、トレーニングされたLoRAを使用してメッシュの構造と外観を最適化する。
- 参考スコア(独自算出の注目度): 27.041687983820708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Boosting3D, a multi-stage single image-to-3D generation method
that can robustly generate reasonable 3D objects in different data domains. The
point of this work is to solve the view consistency problem in single
image-guided 3D generation by modeling a reasonable geometric structure. For
this purpose, we propose to utilize better 3D prior to training the NeRF. More
specifically, we train an object-level LoRA for the target object using
original image and the rendering output of NeRF. And then we train the LoRA and
NeRF using a progressive training strategy. The LoRA and NeRF will boost each
other while training. After the progressive training, the LoRA learns the 3D
information of the generated object and eventually turns to an object-level 3D
prior. In the final stage, we extract the mesh from the trained NeRF and use
the trained LoRA to optimize the structure and appearance of the mesh. The
experiments demonstrate the effectiveness of the proposed method. Boosting3D
learns object-specific 3D prior which is beyond the ability of pre-trained
diffusion priors and achieves state-of-the-art performance in the single
image-to-3d generation task.
- Abstract(参考訳): 本稿では,複数のデータ領域で合理的な3Dオブジェクトを堅牢に生成できる,多段階の単一画像から3D生成手法Boosting3Dを提案する。
本研究の目的は、合理的な幾何学構造をモデル化することにより、単一画像誘導3次元生成におけるビュー一貫性問題を解決することである。
そこで我々は,NeRFのトレーニングに先立って,より優れた3Dの活用を提案する。
具体的には、オリジナル画像とNeRFのレンダリング出力を用いて、対象オブジェクトに対してオブジェクトレベルのLoRAをトレーニングする。
そして、プログレッシブトレーニング戦略を用いてLoRAとNeRFをトレーニングします。
LoRAとNeRFは、トレーニング中にお互いを強化します。
プログレッシブトレーニングの後、LoRAは生成されたオブジェクトの3D情報を学び、最終的にオブジェクトレベルの3Dに変換する。
最終段階では、トレーニングされたNeRFからメッシュを抽出し、トレーニングされたLoRAを使用してメッシュの構造と外観を最適化する。
提案手法の有効性を示す実験を行った。
Boosting3Dは、事前訓練された拡散前の能力を超えるオブジェクト固有の3D前処理を学習し、単一の画像から3d生成タスクで最先端のパフォーマンスを達成する。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - GO-NeRF: Generating Virtual Objects in Neural Radiance Fields [75.13534508391852]
GO-NeRFは、既存のNeRF内の高品質で調和した3Dオブジェクト生成にシーンコンテキストを利用することができる。
本手法では,生成した3次元オブジェクトをシームレスにシーンに合成する構成的レンダリング形式を用いる。
論文 参考訳(メタデータ) (2024-01-11T08:58:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。
3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。
本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文 参考訳(メタデータ) (2023-07-27T16:07:03Z) - Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field [16.15190186574068]
データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-07T07:43:02Z) - DITTO-NeRF: Diffusion-based Iterative Text To Omni-directional 3D Model [15.091263190886337]
テキストプロンプトや単一画像から高品質な3D NeRFモデルを生成するための新しいパイプラインを提案する。
DitTO-NeRFは、前景から与えられたまたはテキスト生成された2D画像を用いて、制限付きインバウンダリ(IB)角度のための高品質な部分的な3Dオブジェクトを構築する。
我々は,DITTO-NeRFにおける3次元オブジェクト再構成手法を,スケール(低分解能),アングル(IB角),外界(OB),マスク(背景境界)の3次元オブジェクト再構成方式を提案する。
論文 参考訳(メタデータ) (2023-04-06T02:27:22Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。