論文の概要: Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views
- arxiv url: http://arxiv.org/abs/2312.04424v2
- Date: Thu, 8 Aug 2024 03:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:47:48.996333
- Title: Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views
- Title(参考訳): Cascade-Zero123: 近景を自力で撮影する3D画像
- Authors: Yabo Chen, Jiemin Fang, Yuyang Huang, Taoran Yi, Xiaopeng Zhang, Lingxi Xie, Xinggang Wang, Wenrui Dai, Hongkai Xiong, Qi Tian,
- Abstract要約: Zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に引き上げることで大きな成功を収めた。
しかし、単一の入力画像の空間密度が高いため、Zero-1-to-3はビュー間の幾何学的不整合を生み出す傾向にある。
我々は、生成モデルに対してより多くの条件情報を提供するが、自己プロンプト的な方法で提供することを提案する。
- 参考スコア(独自算出の注目度): 119.76225283008579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing multi-view 3D from one single image is a significant but challenging task. Zero-1-to-3 methods have achieved great success by lifting a 2D latent diffusion model to the 3D scope. The target view image is generated with a single-view source image and the camera pose as condition information. However, due to the high sparsity of the single input image, Zero-1-to-3 tends to produce geometry and appearance inconsistency across views, especially for complex objects. To tackle this issue, we propose to supply more condition information for the generation model but in a self-prompt way. A cascade framework is constructed with two Zero-1-to-3 models, named Cascade-Zero123, which progressively extract 3D information from the source image. Specifically, several nearby views are first generated by the first model and then fed into the second-stage model along with the source image as generation conditions. With amplified self-prompted condition images, our Cascade-Zero123 generates more consistent novel-view images than Zero-1-to-3. Experiment results demonstrate remarkable promotion, especially for various complex and challenging scenes, involving insects, humans, transparent objects, and stacked multiple objects etc. More demos and code are available at https://cascadezero123.github.io.
- Abstract(参考訳): 一つの画像からマルチビュー3Dを合成することは、重要だが難しい課題だ。
Zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に引き上げることで大きな成功を収めた。
ターゲットビュー画像は、単一のビューソース画像で生成され、カメラが条件情報としてポーズする。
しかし、単一の入力画像の空間密度が高いため、Zero-1-to-3はビュー全体、特に複雑なオブジェクトに対して幾何と外観の不整合を生み出す傾向にある。
この問題に対処するために、我々は生成モデルに対してより多くの条件情報を提供するが、自己宣伝的な方法で提供することを提案する。
カスケードフレームワークは2つのZero-1-to-3モデル、Cascade-Zero123で構築され、ソース画像から徐々に3D情報を抽出する。
具体的には、近くのいくつかのビューが最初に第1のモデルによって生成され、生成条件としてソース画像とともに第2のモデルに供給される。
我々のCascade-Zero123は、増幅された自己プロンプト条件画像により、Zero-1-to-3よりも一貫した新規ビュー画像を生成する。
実験の結果、特に昆虫、人間、透明な物体、積み重ねられた複数の物体など、複雑で困難な場面で顕著な促進が示された。
さらなるデモとコードはhttps://cascadezero123.github.ioで公開されている。
関連論文リスト
- Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T17:18:59Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。