論文の概要: Adding 3D Geometry Control to Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.08103v2
- Date: Fri, 29 Sep 2023 20:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:02:26.306981
- Title: Adding 3D Geometry Control to Diffusion Models
- Title(参考訳): 拡散モデルに3次元幾何制御を加える
- Authors: Wufei Ma, Qihao Liu, Jiahao Wang, Xiaoding Yuan, Angtian Wang, Yi
Zhang, Zihao Xiao, Guofeng Zhang, Beijia Lu, Ruxiao Duan, Yongrui Qi, Adam
Kortylewski, Yaoyao Liu, Alan Yuille
- Abstract要約: 拡散モデルは、自然言語の記述からフォトリアリスティックな画像を生成する。
これらのモデルでは、生成された画像の3D構造を明示的に制御することができない。
本研究では,3次元形状制御を拡散モデルに組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 33.51302774983434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have emerged as a powerful method of generative modeling
across a range of fields, capable of producing stunning photo-realistic images
from natural language descriptions. However, these models lack explicit control
over the 3D structure in the generated images. Consequently, this hinders our
ability to obtain detailed 3D annotations for the generated images or to craft
instances with specific poses and distances. In this paper, we propose a simple
yet effective method that incorporates 3D geometry control into diffusion
models. Our method exploits ControlNet, which extends diffusion models by using
visual prompts in addition to text prompts. We generate images of the 3D
objects taken from 3D shape repositories (e.g., ShapeNet and Objaverse), render
them from a variety of poses and viewing directions, compute the edge maps of
the rendered images, and use these edge maps as visual prompts to generate
realistic images. With explicit 3D geometry control, we can easily change the
3D structures of the objects in the generated images and obtain ground-truth 3D
annotations automatically. This allows us to improve a wide range of vision
tasks, e.g., classification and 3D pose estimation, in both in-distribution
(ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness
of our method through extensive experiments on ImageNet-100, ImageNet-R,
PASCAL3D+, ObjectNet3D, and OOD-CV. The results show that our method
significantly outperforms existing methods across multiple benchmarks, e.g.,
3.8 percentage points on ImageNet-100 using DeiT-B and 3.5 percentage points on
PASCAL3D+ & ObjectNet3D using NeMo.
- Abstract(参考訳): 拡散モデルは様々な分野にわたる生成的モデリングの強力な方法として登場し、自然言語記述から素晴らしいフォトリアリスティックな画像を生成することができる。
しかし、これらのモデルは生成された画像の3d構造に対する明示的な制御を欠いている。
これにより、生成された画像の詳細な3Dアノテーションを入手したり、特定のポーズと距離でインスタンスを作れなくなる。
本稿では,3次元形状制御を拡散モデルに組み込む,シンプルで効果的な手法を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
3次元形状リポジトリ(ShapeNetやObjaverseなど)から取得した3Dオブジェクトの画像を生成し、さまざまなポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用して、現実的な画像を生成する。
明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。
これにより、分類や3次元ポーズ推定といった幅広い視覚タスクを、内分布(ID)と外分布(OOD)の両方で改善することができる。
我々は,ImageNet-100, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CV の広範な実験により,提案手法の有効性を実証した。
その結果,複数のベンチマークにおいて,DeiT-Bを用いたImageNet-100の3.8ポイント,NeMoを用いたPASCAL3D+とObjectNet3Dの3.5ポイントなど,既存の手法よりも有意に優れていた。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - Inpaint3D: 3D Scene Content Generation using 2D Inpainting Diffusion [18.67196713834323]
本稿では、2次元拡散モデルを学習された3次元シーン表現(例えば、NeRF)に蒸留することにより、マスク付き多視点画像を用いたシーンの3次元領域の塗装手法を提案する。
我々は,この2次元拡散モデルが,スコア蒸留サンプリングとNeRF再構成損失の組み合わせを用いてNeRFを最適化する3次元多視点再構成問題において,生成前のモデルとして機能することを示す。
提案手法は,任意の3次元マスキング領域を埋めるコンテンツを生成することができるため,3次元オブジェクト補完,3次元オブジェクト置換,3次元シーン補完も同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T19:30:04Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。