論文の概要: Generating Images with 3D Annotations Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.08103v4
- Date: Wed, 3 Apr 2024 19:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 20:42:13.165139
- Title: Generating Images with 3D Annotations Using Diffusion Models
- Title(参考訳): 拡散モデルを用いた3次元アノテーションによる画像生成
- Authors: Wufei Ma, Qihao Liu, Jiahao Wang, Angtian Wang, Xiaoding Yuan, Yi Zhang, Zihao Xiao, Guofeng Zhang, Beijia Lu, Ruxiao Duan, Yongrui Qi, Adam Kortylewski, Yaoyao Liu, Alan Yuille,
- Abstract要約: 拡散モデルに3次元幾何制御を組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
明示的な3次元幾何制御により、生成画像中のオブジェクトの3次元構造を容易に変更し、グラウンドトルース3Dを自動的に得ることができる。
- 参考スコア(独自算出の注目度): 32.77912877963642
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have emerged as a powerful generative method, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure in the generated images. Consequently, this hinders our ability to obtain detailed 3D annotations for the generated images or to craft instances with specific poses and distances. In this paper, we propose 3D Diffusion Style Transfer (3D-DST), which incorporates 3D geometry control into diffusion models. Our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of the 3D objects taken from 3D shape repositories (e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to improve a wide range of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV. The results show that our method significantly outperforms existing methods, e.g., 3.8 percentage points on ImageNet-100 using DeiT-B.
- Abstract(参考訳): 拡散モデルは強力な生成法として登場し、自然言語の記述から素晴らしい写真リアル画像を生成することができる。
しかし、これらのモデルでは生成された画像の3D構造を明示的に制御することができない。
これにより、生成された画像の詳細な3Dアノテーションを入手したり、特定のポーズと距離でインスタンスを作れなくなる。
本稿では,3次元幾何制御を拡散モデルに組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。
提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。
我々は3次元形状リポジトリ(例えばShapeNetやObjaverse)から抽出した3Dオブジェクトの画像を生成し、様々なポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用して現実的な画像を生成する。
明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。
これにより、例えば分類や3次元ポーズ推定といった幅広い視覚タスクを、内分布(ID)と外分布(OOD)の両方で改善することができる。
我々は,ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CV の広範な実験により,本手法の有効性を実証した。
その結果,DeiT-Bを用いたImageNet-100では既存の手法よりも3.8ポイント優れていた。
関連論文リスト
- 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - Inpaint3D: 3D Scene Content Generation using 2D Inpainting Diffusion [18.67196713834323]
本稿では、2次元拡散モデルを学習された3次元シーン表現(例えば、NeRF)に蒸留することにより、マスク付き多視点画像を用いたシーンの3次元領域の塗装手法を提案する。
我々は,この2次元拡散モデルが,スコア蒸留サンプリングとNeRF再構成損失の組み合わせを用いてNeRFを最適化する3次元多視点再構成問題において,生成前のモデルとして機能することを示す。
提案手法は,任意の3次元マスキング領域を埋めるコンテンツを生成することができるため,3次元オブジェクト補完,3次元オブジェクト置換,3次元シーン補完も同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T19:30:04Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。