論文の概要: Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data
- arxiv url: http://arxiv.org/abs/2306.07881v1
- Date: Tue, 13 Jun 2023 16:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:53:31.981097
- Title: Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data
- Title(参考訳): ビューセット拡散: (0-)2次元データを用いた画像合成3次元生成モデル
- Authors: Stanislaw Szymanowicz and Christian Rupprecht and Andrea Vedaldi
- Abstract要約: 画像条件付き3次元生成モデルを2次元データからトレーニングするためのフレームワークであるViewset Diffusionを提案する。
本稿では,多視点画像集合を協調的に認知する拡散モデルを訓練することにより,データ可用性の問題を解決することを提案する。
アーキテクチャとトレーニングスキームの設計により、我々のモデルは3次元生成、生成、あいまいさを意識した単一ビュー再構成を行うことができる。
- 参考スコア(独自算出の注目度): 93.35231289930168
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Viewset Diffusion: a framework for training image-conditioned 3D
generative models from 2D data. Image-conditioned 3D generative models allow us
to address the inherent ambiguity in single-view 3D reconstruction. Given one
image of an object, there is often more than one possible 3D volume that
matches the input image, because a single image never captures all sides of an
object. Deterministic models are inherently limited to producing one possible
reconstruction and therefore make mistakes in ambiguous settings. Modelling
distributions of 3D shapes is challenging because 3D ground truth data is often
not available. We propose to solve the issue of data availability by training a
diffusion model which jointly denoises a multi-view image set.We constrain the
output of Viewset Diffusion models to a single 3D volume per image set,
guaranteeing consistent geometry. Training is done through reconstruction
losses on renderings, allowing training with only three images per object. Our
design of architecture and training scheme allows our model to perform 3D
generation and generative, ambiguity-aware single-view reconstruction in a
feed-forward manner. Project page: szymanowiczs.github.io/viewset-diffusion.
- Abstract(参考訳): 画像条件付き3次元生成モデルを2次元データからトレーニングするためのフレームワークであるViewset Diffusionを提案する。
画像条件付き3D生成モデルにより、単一視点3D再構成における固有曖昧性に対処できる。
オブジェクトの1つのイメージが与えられた場合、単一のイメージがオブジェクトのすべての側面をキャプチャしないため、入力画像にマッチする1つの可能な3Dボリュームがしばしば存在する。
決定論的モデルは本質的に1つの可能な再構成に制限されており、曖昧な設定で誤りを犯す。
3次元地上真理データはしばしば利用できないため、3次元形状のモデリング分布は困難である。
我々は,多視点画像集合を協調的に認知する拡散モデルを訓練することにより,データ可用性の問題を解決することを提案し,ビューセット拡散モデルの出力を画像集合ごとの1つの3次元ボリュームに制限し,一貫した幾何を保証する。
トレーニングはレンダリングの復元損失によって行われ、オブジェクト毎に3つのイメージしかトレーニングできない。
アーキテクチャとトレーニングスキームの設計により,モデルがフィードフォワード方式で3次元生成・生成・曖昧度対応シングルビュー再構築を行うことができる。
プロジェクトページ:szymanowiczs.github.io/viewset-diffusion
関連論文リスト
- Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models [3.9373541926236766]
本稿では,2次元画像データのみを用いて3次元シーン上での潜時拡散モデルを提案する。
我々は,スクラッチからでもスパースインプットビューからでも,わずか0.2秒で3Dシーンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-06-18T23:14:29Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - DreamComposer: Controllable 3D Object Generation via Multi-View Conditions [45.4321454586475]
最近の作品では、ワン・イン・ザ・ワイルド画像から高品質なノベルビューを生成することができる。
複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
我々はDreamComposerについて述べる。DreamComposerはフレキシブルでスケーラブルなフレームワークで、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化することができる。
論文 参考訳(メタデータ) (2023-12-06T16:55:53Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。