論文の概要: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion
Models with RL Finetuning
- arxiv url: http://arxiv.org/abs/2312.13980v1
- Date: Thu, 21 Dec 2023 16:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:21:24.265558
- Title: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion
Models with RL Finetuning
- Title(参考訳): Carve3D:RLファインタニングによる拡散モデルの多視点再構成整合性の改善
- Authors: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi,
S\"oren Pirk, Arie E. Kaufman
- Abstract要約: RLFT法であるCarve3DとMulti-view Restruction Consistency Metricsについて述べる。
改良されたマルチビュー整合性, 結果として得られるNeRF再構成品質, より長いSFTに比べて分布シフトが最小であることを示す。
- 参考スコア(独自算出の注目度): 37.50272628814832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in the text-to-3D task leverage finetuned text-to-image
diffusion models to generate multi-view images, followed by NeRF
reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still
suffer from multi-view inconsistency and the resulting NeRF artifacts. Although
training longer with SFT improves consistency, it also causes distribution
shift, which reduces diversity and realistic details. We argue that the SFT of
multi-view diffusion models resembles the instruction finetuning stage of the
LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods.
Essentially, RLFT methods optimize models beyond their SFT data distribution by
using their own outputs, effectively mitigating distribution shift. To this
end, we introduce Carve3D, a RLFT method coupled with the Multi-view
Reconstruction Consistency (MRC) metric, to improve the consistency of
multi-view diffusion models. To compute MRC on a set of multi-view images, we
compare them with their corresponding renderings of the reconstructed NeRF at
the same viewpoints. We validate the robustness of MRC with extensive
experiments conducted under controlled inconsistency levels. We enhance the
base RLFT algorithm to stabilize the training process, reduce distribution
shift, and identify scaling laws. Through qualitative and quantitative
experiments, along with a user study, we demonstrate Carve3D's improved
multi-view consistency, the resulting superior NeRF reconstruction quality, and
minimal distribution shift compared to longer SFT. Project webpage:
https://desaixie.github.io/carve-3d.
- Abstract(参考訳): text-to-3dタスクの最近の進歩は、ファインチューニングされたtext-to-image拡散モデルを利用してマルチビュー画像を生成する。
しかし、既存の教師付き微調整拡散モデル(SFT)は、マルチビューの不整合と結果のNeRFアーティファクトに悩まされている。
SFTによるより長いトレーニングは一貫性を向上させるが、分散シフトを引き起こし、多様性と現実的な詳細を減らす。
マルチビュー拡散モデルのSFTは、LLMアライメントパイプラインの命令微調整段階に似ており、RL微調整(RLFT)手法の恩恵を受けることができる。
基本的に、RLFT法は、SFTデータ分布を超えてモデルを最適化し、分散シフトを効果的に軽減する。
そこで我々は,多視点拡散モデルの整合性を改善するために,MRC(Multi-view Reconstruction Consistency)メトリックと組み合わせたRLFT手法であるCarve3Dを紹介する。
マルチビュー画像の集合上でMRCを計算するために、再構成したNeRFのレンダリングを同じ視点で比較する。
制御された不整合レベル下での広範囲な実験により, MRCの堅牢性を検証する。
本稿では,ベースrlftアルゴリズムを拡張し,トレーニングプロセスの安定化,分散シフトの低減,スケーリング則の特定を行う。
定性的かつ定量的な実験を通じて、Carve3Dのマルチビュー整合性の改善、NeRF再構成品質の向上、より長いSFTと比較しての分布シフトの最小化を実証した。
プロジェクトWebページ: https://desaixie.github.io/carve-3d.com
関連論文リスト
- MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion [88.02512124661884]
粗い生成結果を著しく洗練する多視点条件拡散モデルであるMagic-Boostを提案する。
以前のテキストや単一イメージベースの拡散モデルと比較して、Magic-Boostは高一貫性で画像を生成する堅牢な能力を示している。
入力画像の同一性によく整合した正確なSDSガイダンスを提供し、初期生成結果の幾何学的およびテクスチャの局所的な詳細を豊かにする。
論文 参考訳(メタデータ) (2024-04-09T16:20:03Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築のための新しいパラダイムを提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion [60.30030562932703]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。