論文の概要: Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
- arxiv url: http://arxiv.org/abs/2409.03718v1
- Date: Thu, 5 Sep 2024 17:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:43:43.712682
- Title: Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
- Title(参考訳): 幾何学的画像拡散:画像に基づく表面表現を用いた高速かつデータ効率のテキストから3D
- Authors: Slava Elizarov, Ciara Rowles, Simon Donné,
- Abstract要約: GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
- 参考スコア(独自算出の注目度): 2.3213238782019316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
- Abstract(参考訳): テキスト記述から高品質な3Dオブジェクトを生成することは、計算コスト、3Dデータの不足、複雑な3D表現のために難しい問題である。
幾何学画像を用いた3次元形状表現モデルであるGIMDiffusion(Geometry Image Diffusion)を導入する。
協調制御機構を統合することで、安定拡散のような既存のテキスト・画像モデルのリッチな2次元先行を活用できる。
これにより、限られた3Dトレーニングデータ(高品質なトレーニングデータしか使用できない)でも強力な一般化が可能になり、IPAdapterのようなガイダンス技術との互換性を維持します。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
生成されたオブジェクトは意味的に意味のある別々の部分で構成され、内部構造を含み、ユーザビリティと汎用性の両方を高める。
関連論文リスト
- 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T17:59:30Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。