論文の概要: Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.03020v2
- Date: Thu, 14 Mar 2024 23:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 03:21:56.680729
- Title: Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models
- Title(参考訳): Consistent-1-to-3:Geometry-Aware Diffusion Modelを用いた3次元画像合成
- Authors: Jianglong Ye, Peng Wang, Kejie Li, Yichun Shi, Heng Wang,
- Abstract要約: Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
- 参考スコア(独自算出の注目度): 16.326276673056334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot novel view synthesis (NVS) from a single image is an essential problem in 3D object understanding. While recent approaches that leverage pre-trained generative models can synthesize high-quality novel views from in-the-wild inputs, they still struggle to maintain 3D consistency across different views. In this paper, we present Consistent-1-to-3, which is a generative framework that significantly mitigates this issue. Specifically, we decompose the NVS task into two stages: (i) transforming observed regions to a novel view, and (ii) hallucinating unseen regions. We design a scene representation transformer and view-conditioned diffusion model for performing these two stages respectively. Inside the models, to enforce 3D consistency, we propose to employ epipolor-guided attention to incorporate geometry constraints, and multi-view attention to better aggregate multi-view information. Finally, we design a hierarchy generation paradigm to generate long sequences of consistent views, allowing a full 360-degree observation of the provided object image. Qualitative and quantitative evaluation over multiple datasets demonstrates the effectiveness of the proposed mechanisms against state-of-the-art approaches. Our project page is at https://jianglongye.com/consistent123/
- Abstract(参考訳): 単一画像からのゼロショットノベルビュー合成(NVS)は、3次元オブジェクト理解において重要な問題である。
事前学習された生成モデルを活用する最近のアプローチは、既存の入力から高品質な新規ビューを合成することができるが、異なるビュー間での3D一貫性を維持するのに依然として苦労している。
本稿では,この問題を緩和する生成フレームワークであるConsistent-1-to-3を提案する。
具体的には、NVSタスクを2つのステージに分割する。
(i)観察された地域を新しい視点に転換し、
(二)幻覚の未確認地域
これら2つのステージをそれぞれ実行するためのシーン表現変換器とビュー条件拡散モデルの設計を行う。
モデル内では3次元整合性を実現するために,幾何制約を組み込むためにエピポラ誘導の注意と,多視点情報をよりよく集約するために多視点の注意を用いることを提案する。
最後に、一貫したビューの長いシーケンスを生成する階層生成パラダイムを設計し、提供されたオブジェクト画像の完全な360度観察を可能にする。
複数のデータセットに対する定性的かつ定量的な評価は、提案手法が最先端アプローチに対して有効であることを示す。
私たちのプロジェクトページはhttps://jianglongye.com/consistent123/です。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。