論文の概要: ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion
- arxiv url: http://arxiv.org/abs/2310.10343v1
- Date: Mon, 16 Oct 2023 12:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:37:17.570964
- Title: ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion
- Title(参考訳): ConsistNet:マルチビュー画像拡散のための3D一貫性の実現
- Authors: Jiayu Yang, Ziang Cheng, Yunfei Duan, Pan Ji, Hongdong Li
- Abstract要約: 本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
- 参考スコア(独自算出の注目度): 61.37481051263816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a single image of a 3D object, this paper proposes a novel method
(named ConsistNet) that is able to generate multiple images of the same object,
as if seen they are captured from different viewpoints, while the 3D
(multi-view) consistencies among those multiple generated images are
effectively exploited. Central to our method is a multi-view consistency block
which enables information exchange across multiple single-view diffusion
processes based on the underlying multi-view geometry principles. ConsistNet is
an extension to the standard latent diffusion model, and consists of two
sub-modules: (a) a view aggregation module that unprojects multi-view features
into global 3D volumes and infer consistency, and (b) a ray aggregation module
that samples and aggregate 3D consistent features back to each view to enforce
consistency. Our approach departs from previous methods in multi-view image
generation, in that it can be easily dropped-in pre-trained LDMs without
requiring explicit pixel correspondences or depth prediction. Experiments show
that our method effectively learns 3D consistency over a frozen Zero123
backbone and can generate 16 surrounding views of the object within 40 seconds
on a single A100 GPU. Our code will be made available on
https://github.com/JiayuYANG/ConsistNet
- Abstract(参考訳): 3dオブジェクトの1つのイメージを与えられた場合、同一オブジェクトの複数のイメージを異なる視点から捉えるように生成できる新しい方法( consistnet と呼ばれる)を提案し、これら複数の生成された画像間の3d(マルチビュー)コンポジションを効果的に活用する。
本手法の中心はマルチビュー一貫性ブロックであり,マルチビュー幾何原理に基づく複数の単一ビュー拡散プロセス間の情報交換を可能にする。
ConsistNetは標準潜在拡散モデルの拡張であり、2つのサブモジュールから構成される。
(a)マルチビュー機能をグローバルな3Dボリュームに投影し、一貫性を推論するビューアグリゲーションモジュール
b) 一貫性を強制するために、各ビューに3D一貫性のある機能をサンプリングして集約するレイアグリゲーションモジュール。
本手法は,事前学習したldmを,ピクセル対応や深度予測を必要とせずに容易にドロップインできるため,マルチビュー画像生成における従来の手法から逸脱している。
実験により, 凍結したZero123のバックボーン上での3次元一貫性を効果的に学習し, 単一のA100 GPU上で, 40秒以内で物体の周囲のビューを生成できることがわかった。
私たちのコードはhttps://github.com/JiayuYANG/ConsistNetで公開されます。
関連論文リスト
- Duoduo CLIP: Efficient 3D Understanding with Multi-View Images [14.572094389643173]
Duoduo CLIPは、ポイントクラウドではなく、マルチビューイメージから形状エンコーディングを学ぶ3D表現学習のモデルである。
当社のアプローチは,既存のポイントクラウド手法よりも優れた一般化を示すだけでなく,GPU要件やトレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-06-17T14:16:12Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。