論文の概要: Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model
- arxiv url: http://arxiv.org/abs/2310.15110v1
- Date: Mon, 23 Oct 2023 17:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:24:34.501652
- Title: Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model
- Title(参考訳): Zero123++: 一貫性のある多視点拡散ベースモデルのための単一イメージ
- Authors: Ruoxi Shi, Hansheng Chen, Zhuoyang Zhang, Minghua Liu, Chao Xu, Xinyue
Wei, Linghao Chen, Chong Zeng, Hao Su
- Abstract要約: Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
- 参考スコア(独自算出の注目度): 30.44339780026541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We report Zero123++, an image-conditioned diffusion model for generating
3D-consistent multi-view images from a single input view. To take full
advantage of pretrained 2D generative priors, we develop various conditioning
and training schemes to minimize the effort of finetuning from off-the-shelf
image diffusion models such as Stable Diffusion. Zero123++ excels in producing
high-quality, consistent multi-view images from a single image, overcoming
common issues like texture degradation and geometric misalignment. Furthermore,
we showcase the feasibility of training a ControlNet on Zero123++ for enhanced
control over the generation process. The code is available at
https://github.com/SUDO-AI-3D/zero123plus.
- Abstract(参考訳): 画像条件付き拡散モデルであるZero123++を1つの入力ビューから3次元一貫性のあるマルチビュー画像を生成する。
事前学習された2次元生成前処理を最大限に活用するため,安定拡散などの既成画像拡散モデルからの微調整の労力を最小限に抑えるための様々な条件付けと訓練手法を開発した。
Zero123++は、1つのイメージから高品質で一貫したマルチビューイメージを生成し、テクスチャの劣化や幾何学的ミスアライメントといった一般的な問題を克服している。
さらに,Zero123++ 上で ControlNet をトレーニングし,生成プロセスの制御性を向上させる可能性を示す。
コードはhttps://github.com/SUDO-AI-3D/zero123plusで公開されている。
関連論文リスト
- Fancy123: One Image to High-Quality 3D Mesh Generation via Plug-and-Play Deformation [22.5996658181606]
2つの拡張モジュールと、上記の3つの問題に対処するための未投射操作を備えたFancy123を提案する。
外観強調モジュールは、2Dマルチビューイメージをリアルピクセルに変形させて、より優れたマルチビュー一貫性を実現する。
忠実度向上モジュールは、入力画像に一致するように3Dメッシュを変形させる。
入力画像と変形したマルチビュー画像をLRMの生成されたメッシュに投影することで、高い明快さが保証される。
論文 参考訳(メタデータ) (2024-11-25T08:31:55Z) - MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views [119.76225283008579]
Zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に引き上げることで大きな成功を収めた。
しかし、単一の入力画像の空間密度が高いため、Zero-1-to-3はビュー間の幾何学的不整合を生み出す傾向にある。
我々は、生成モデルに対してより多くの条件情報を提供するが、自己プロンプト的な方法で提供することを提案する。
論文 参考訳(メタデータ) (2023-12-07T16:49:09Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。