論文の概要: Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted
Nearby Views
- arxiv url: http://arxiv.org/abs/2312.04424v1
- Date: Thu, 7 Dec 2023 16:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:07:36.585998
- Title: Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted
Nearby Views
- Title(参考訳): Cascade-Zero123: 近景を自力で撮影する3D画像
- Authors: Yabo Chen, Jiemin Fang, Yuyang Huang, Taoran Yi, Xiaopeng Zhang,
Lingxi Xie, Xinggang Wang, Wenrui Dai, Hongkai Xiong, Qi Tian
- Abstract要約: 本稿では,2つのZero-1-to-3モデルのカスケード生成フレームワーク,Cascade-Zero123を提案する。
自己プロンプトされた複数のビューを補足情報として、我々のCascade-Zero123はZero-1-to-3よりも高度に一貫したノベルビュー画像を生成する。
- 参考スコア(独自算出の注目度): 123.74712421517589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing multi-view 3D from one single image is a significant and
challenging task. For this goal, Zero-1-to-3 methods aim to extend a 2D latent
diffusion model to the 3D scope. These approaches generate the target-view
image with a single-view source image and the camera pose as condition
information. However, the one-to-one manner adopted in Zero-1-to-3 incurs
challenges for building geometric and visual consistency across views,
especially for complex objects. We propose a cascade generation framework
constructed with two Zero-1-to-3 models, named Cascade-Zero123, to tackle this
issue, which progressively extracts 3D information from the source image.
Specifically, a self-prompting mechanism is designed to generate several nearby
views at first. These views are then fed into the second-stage model along with
the source image as generation conditions. With self-prompted multiple views as
the supplementary information, our Cascade-Zero123 generates more highly
consistent novel-view images than Zero-1-to-3. The promotion is significant for
various complex and challenging scenes, involving insects, humans, transparent
objects, and stacked multiple objects etc. The project page is at
https://cascadezero123.github.io/.
- Abstract(参考訳): 単一の画像からマルチビュー3Dを合成することは、重要で困難な作業である。
この目的のために、zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に拡張することを目的としている。
これらのアプローチは、単一のビューソースイメージでターゲットビュー画像を生成し、カメラが条件情報としてポーズする。
しかし、Zero-1-to-3で採用されている1対1の手法は、ビュー全体、特に複雑なオブジェクトに対して幾何学的および視覚的整合性を構築する上での課題を引き起こす。
本研究では,ゼロ-1-to-3を2つのモデルで構築したカスケード生成フレームワークであるカスケード-zero123を提案する。
具体的には、最初に近くのビューを複数生成するように自己宣伝機構が設計されている。
これらのビューは生成条件としてソースイメージとともに第2ステージモデルに入力される。
我々のカスケード0123は、ゼロ-1〜3よりも高度に一貫性のあるノベルビュー画像を生成する。
このプロモーションは、昆虫、人間、透明な物体、積み重ねられた複数の物体など、様々な複雑で困難な場面で重要である。
プロジェクトページはhttps://cascadezero123.github.io/にある。
関連論文リスト
- Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T17:18:59Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。