Fugu-MT 論文翻訳(概要): HoloDiffusion: Training a 3D Diffusion Model using 2D Images

論文の概要: HoloDiffusion: Training a 3D Diffusion Model using 2D Images

arxiv url: http://arxiv.org/abs/2303.16509v2
Date: Sun, 21 May 2023 22:38:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 03:32:24.643432
Title: HoloDiffusion: Training a 3D Diffusion Model using 2D Images
Title（参考訳）: holodiffusion: 2次元画像を用いた3次元拡散モデルのトレーニング
Authors: Animesh Karnewar, Andrea Vedaldi, David Novotny, Niloy Mitra
Abstract要約: 我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
参考スコア（独自算出の注目度）: 71.1144397510333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have emerged as the best approach for generative modeling of 2D images. Part of their success is due to the possibility of training them on millions if not billions of images with a stable learning objective. However, extending these models to 3D remains difficult for two reasons. First, finding a large quantity of 3D training data is much more complex than for 2D images. Second, while it is conceptually trivial to extend the models to operate on 3D rather than 2D grids, the associated cubic growth in memory and compute complexity makes this infeasible. We address the first challenge by introducing a new diffusion setup that can be trained, end-to-end, with only posed 2D images for supervision; and the second challenge by proposing an image formation model that decouples model memory from spatial memory. We evaluate our method on real-world data, using the CO3D dataset which has not been used to train 3D generative models before. We show that our diffusion models are scalable, train robustly, and are competitive in terms of sample quality and fidelity to existing approaches for 3D generative modeling.
Abstract（参考訳）: 拡散モデルは2次元画像の生成的モデリングの最良のアプローチとして現れてきた。彼らの成功の一部は、安定的な学習目標を持つ何十億もの画像でトレーニングできることによる。しかし、2つの理由からこれらのモデルを3Dに拡張することは難しい。まず、大量の3Dトレーニングデータを見つけることは、2D画像よりもはるかに複雑である。第二に、2Dグリッドではなく3Dで動くようにモデルを拡張することは概念的には自明であるが、それに伴うメモリと計算の複雑さは、これを実現できない。第1の課題は、トレーニング可能なエンドツーエンドの2d画像のみを監視可能な新しい拡散設定を導入すること、第2の課題は、モデルメモリと空間記憶を分離する画像形成モデルを提案することである。本研究では,これまで3次元生成モデルのトレーニングに用いられていなかったco3dデータセットを用いて,実世界のデータに対する評価を行う。我々の拡散モデルはスケーラブルで、堅牢に訓練されており、既存の3次元生成モデリング手法に対するサンプル品質と忠実さの点で競争力があることを示す。

関連論文リスト

Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation [30.418733980714915]
本研究では,高密度な2次元格子を用いた新しい表現を導入し,2次元拡散モデルの微調整により3次元ガウスモデルを生成する。実験結果から,テキスト・画像拡散モデルが3次元コンテンツ生成に効果的に適応できることが示唆された。
論文参考訳（メタデータ） (2025-03-20T05:59:41Z)
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation [15.374873279207623]
本稿では,3Dオブジェクトの生成,編集,拡張を行う効率的なフレームワークであるKiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介する。具体的には,多視点画像とその対応する正規写像からなるタイル付き表現である'3D Bundle Image'を生成するために拡散モデルを微調整する。この簡単な方法は、3次元生成問題を2次元画像生成タスクに効果的に変換し、事前訓練された拡散モデルにおける知識の利用を最大化する。
論文参考訳（メタデータ） (2025-03-03T10:07:19Z)
Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。 3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文参考訳（メタデータ） (2025-01-09T18:37:35Z)
Gen-3Diffusion: Realistic Image-to-3D Generation via 2D & 3D Diffusion Synergy [29.73743772971411]
Gen-3Diffusion: Realistic Image-to-3D Generation via 2D and 3D Diffusion Synergyを提案する。事前学習した2次元拡散モデルと3次元拡散モデルをエレガントに設計したプロセスを通じて活用する。提案手法は,高忠実度な形状とテクスチャを持つ現実的な3Dオブジェクトとアバターを生成する。
論文参考訳（メタデータ） (2024-12-09T17:44:42Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文参考訳（メタデータ） (2024-06-18T23:14:29Z)
Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models [29.73743772971411]
人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に補完情報を提供するということである。提案するフレームワークは,最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成することができる。
論文参考訳（メタデータ） (2024-06-12T17:57:25Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-03-18T17:59:12Z)
Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文参考訳（メタデータ） (2024-03-14T07:39:59Z)
GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models [102.22388340738536]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。 3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文参考訳（メタデータ） (2023-10-12T17:22:24Z)
3D-aware Image Generation using 2D Diffusion Models [23.150456832947427]
我々は、3D対応画像生成タスクをマルチビュー2Dイメージセット生成として定式化し、さらにシーケンシャルな条件なしのマルチビュー画像生成プロセスにも適用する。本研究では,2次元拡散モデルを用いて生成的モデリング能力を向上する。我々は,既存の手法では扱えない大規模データセットであるImageNetで,本手法を訓練する。
論文参考訳（メタデータ） (2023-03-31T09:03:18Z)
Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。最近、研究者は焦点を2Dから3Dにシフトし始めた。 3Dデータの表現は、非常に大きな課題をもたらします。
論文参考訳（メタデータ） (2022-10-27T17:59:50Z)
DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文参考訳（メタデータ） (2022-09-29T17:50:40Z)
Leveraging 2D Data to Learn Textured 3D Mesh Generation [33.32377849866736]
テクスチャ化された3Dメッシュの最初の生成モデルを示す。我々は、各画像を3Dフォアグラウンドオブジェクトとしてモデル化することで、画像の分布を説明するためにモデルを訓練する。レンダリングされたメッシュを生成して、トレーニングセットと同じようなイメージを生成する。
論文参考訳（メタデータ） (2020-04-08T18:00:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。