論文の概要: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
- arxiv url: http://arxiv.org/abs/2312.13980v2
- Date: Tue, 9 Apr 2024 04:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:47:12.945563
- Title: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
- Title(参考訳): Carve3D:RLファインタニングによる拡散モデルにおける多視点再構成整合性の改善
- Authors: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman,
- Abstract要約: さらなる強化学習ファインタニング(RLFT)の恩恵を受ける多視点拡散モデル
本稿では,改良されたRLFTアルゴリズムであるCarve3Dと,新しいMRC(Multi-view Reconstruction Consistency)メトリクスを紹介する。
この結果から,多視点拡散モデルの開発には,SFTとCarve3DのRLFTのペアリングが不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 40.51051863133226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view diffusion models, obtained by applying Supervised Finetuning (SFT) to text-to-image diffusion models, have driven recent breakthroughs in text-to-3D research. However, due to the limited size and quality of existing 3D datasets, they still suffer from multi-view inconsistencies and Neural Radiance Field (NeRF) reconstruction artifacts. We argue that multi-view diffusion models can benefit from further Reinforcement Learning Finetuning (RLFT), which allows models to learn from the data generated by themselves and improve beyond their dataset limitations during SFT. To this end, we introduce Carve3D, an improved RLFT algorithm coupled with a novel Multi-view Reconstruction Consistency (MRC) metric, to enhance the consistency of multi-view diffusion models. To measure the MRC metric on a set of multi-view images, we compare them with their corresponding NeRF renderings at the same camera viewpoints. The resulting model, which we denote as Carve3DM, demonstrates superior multi-view consistency and NeRF reconstruction quality than existing models. Our results suggest that pairing SFT with Carve3D's RLFT is essential for developing multi-view-consistent diffusion models, mirroring the standard Large Language Model (LLM) alignment pipeline. Our code, training and testing data, and video results are available at: https://desaixie.github.io/carve-3d.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルにスーパービジョン・ファインタニング(SFT)を適用した多視点拡散モデルにより、テキスト・ツー・3D研究における最近のブレークスルーを導いた。
しかし、既存の3Dデータセットのサイズと品質が制限されているため、マルチビューの不整合やニューラルレーシアンスフィールド(Neural Radiance Field、NeRF)の再構築アーティファクトに悩まされている。
我々は、多視点拡散モデルがさらに強化学習ファインタニング(RLFT)の恩恵を受けることができると主張している。
この目的のために,改良されたRLFTアルゴリズムであるCarve3Dと,新しいMRC(Multi-view Reconstruction Consistency)メトリクスを組み合わせることで,多視点拡散モデルの整合性を高める。
マルチビュー画像の集合上でのMRC測度を測定するため、同じカメラ視点で対応するNeRFレンダリングと比較する。
Carve3DMと呼ばれる結果のモデルは、既存のモデルよりも優れたマルチビュー整合性とNeRF再構成品質を示す。
この結果から,Carve3D の RLFT と SFT のペアリングは,標準のLarge Language Model (LLM) アライメントパイプラインを反映した多視点拡散モデルの開発に不可欠であることが示唆された。
私たちのコード、トレーニング、テストデータ、ビデオ結果は以下の通りです。
関連論文リスト
- MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion [88.02512124661884]
粗い生成結果を著しく洗練する多視点条件拡散モデルであるMagic-Boostを提案する。
以前のテキストや単一イメージベースの拡散モデルと比較して、Magic-Boostは高一貫性で画像を生成する堅牢な能力を示している。
入力画像の同一性によく整合した正確なSDSガイダンスを提供し、初期生成結果の幾何学的およびテクスチャの局所的な詳細を豊かにする。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築のための新しいパラダイムを提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。