論文の概要: Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data
- arxiv url: http://arxiv.org/abs/2306.07881v2
- Date: Fri, 1 Sep 2023 11:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:42:30.481553
- Title: Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data
- Title(参考訳): ビューセット拡散: (0-)2次元データを用いた画像合成3次元生成モデル
- Authors: Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi
- Abstract要約: Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
- 参考スコア(独自算出の注目度): 76.38261311948649
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Viewset Diffusion, a diffusion-based generator that outputs 3D
objects while only using multi-view 2D data for supervision. We note that there
exists a one-to-one mapping between viewsets, i.e., collections of several 2D
views of an object, and 3D models. Hence, we train a diffusion model to
generate viewsets, but design the neural network generator to reconstruct
internally corresponding 3D models, thus generating those too. We fit a
diffusion model to a large number of viewsets for a given category of objects.
The resulting generator can be conditioned on zero, one or more input views.
Conditioned on a single view, it performs 3D reconstruction accounting for the
ambiguity of the task and allowing to sample multiple solutions compatible with
the input. The model performs reconstruction efficiently, in a feed-forward
manner, and is trained using only rendering losses using as few as three views
per viewset. Project page: szymanowiczs.github.io/viewset-diffusion.
- Abstract(参考訳): 本研究では,多視点2次元データのみを用いて3次元オブジェクトを出力する拡散型ジェネレータであるViewset Diffusionを提案する。
ビューセット間の1対1マッピング、すなわちオブジェクトの複数の2次元ビューのコレクションと3Dモデルが存在することに留意する。
したがって、拡散モデルをトレーニングしてビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成し、それらも生成する。
オブジェクトの特定のカテゴリに対して、拡散モデルを多数のビューセットに適合させる。
生成したジェネレータは、ゼロまたは1つ以上の入力ビューで条件付けできる。
1つのビューで条件付きで、タスクのあいまいさを考慮し、3D再構成を行い、入力と互換性のある複数のソリューションをサンプリングする。
このモデルはフィードフォワード方式で効率的に再構築を行い、1ビューセットあたり3ビュー未満で損失をレンダリングするだけで訓練される。
プロジェクトページ:szymanowiczs.github.io/viewset-diffusion
関連論文リスト
- Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - DreamComposer: Controllable 3D Object Generation via Multi-View Conditions [45.4321454586475]
最近の作品では、ワン・イン・ザ・ワイルド画像から高品質なノベルビューを生成することができる。
複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
我々はDreamComposerについて述べる。DreamComposerはフレキシブルでスケーラブルなフレームワークで、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化することができる。
論文 参考訳(メタデータ) (2023-12-06T16:55:53Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。