Fugu-MT 論文翻訳(概要): Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

論文の概要: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

arxiv url: http://arxiv.org/abs/2312.13980v1
Date: Thu, 21 Dec 2023 16:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 14:21:24.265558
Title: Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning
Title（参考訳）: Carve3D:RLファインタニングによる拡散モデルの多視点再構成整合性の改善
Authors: Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, S\"oren Pirk, Arie E. Kaufman
Abstract要約: RLFT法であるCarve3DとMulti-view Restruction Consistency Metricsについて述べる。改良されたマルチビュー整合性, 結果として得られるNeRF再構成品質, より長いSFTに比べて分布シフトが最小であることを示す。
参考スコア（独自算出の注目度）: 37.50272628814832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in the text-to-3D task leverage finetuned text-to-image diffusion models to generate multi-view images, followed by NeRF reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still suffer from multi-view inconsistency and the resulting NeRF artifacts. Although training longer with SFT improves consistency, it also causes distribution shift, which reduces diversity and realistic details. We argue that the SFT of multi-view diffusion models resembles the instruction finetuning stage of the LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods. Essentially, RLFT methods optimize models beyond their SFT data distribution by using their own outputs, effectively mitigating distribution shift. To this end, we introduce Carve3D, a RLFT method coupled with the Multi-view Reconstruction Consistency (MRC) metric, to improve the consistency of multi-view diffusion models. To compute MRC on a set of multi-view images, we compare them with their corresponding renderings of the reconstructed NeRF at the same viewpoints. We validate the robustness of MRC with extensive experiments conducted under controlled inconsistency levels. We enhance the base RLFT algorithm to stabilize the training process, reduce distribution shift, and identify scaling laws. Through qualitative and quantitative experiments, along with a user study, we demonstrate Carve3D's improved multi-view consistency, the resulting superior NeRF reconstruction quality, and minimal distribution shift compared to longer SFT. Project webpage: https://desaixie.github.io/carve-3d.
Abstract（参考訳）: text-to-3dタスクの最近の進歩は、ファインチューニングされたtext-to-image拡散モデルを利用してマルチビュー画像を生成する。しかし、既存の教師付き微調整拡散モデル(SFT)は、マルチビューの不整合と結果のNeRFアーティファクトに悩まされている。 SFTによるより長いトレーニングは一貫性を向上させるが、分散シフトを引き起こし、多様性と現実的な詳細を減らす。マルチビュー拡散モデルのSFTは、LLMアライメントパイプラインの命令微調整段階に似ており、RL微調整(RLFT)手法の恩恵を受けることができる。基本的に、RLFT法は、SFTデータ分布を超えてモデルを最適化し、分散シフトを効果的に軽減する。そこで我々は,多視点拡散モデルの整合性を改善するために,MRC(Multi-view Reconstruction Consistency)メトリックと組み合わせたRLFT手法であるCarve3Dを紹介する。マルチビュー画像の集合上でMRCを計算するために、再構成したNeRFのレンダリングを同じ視点で比較する。制御された不整合レベル下での広範囲な実験により, MRCの堅牢性を検証する。本稿では,ベースrlftアルゴリズムを拡張し,トレーニングプロセスの安定化,分散シフトの低減,スケーリング則の特定を行う。定性的かつ定量的な実験を通じて、Carve3Dのマルチビュー整合性の改善、NeRF再構成品質の向上、より長いSFTと比較しての分布シフトの最小化を実証した。プロジェクトWebページ: https://desaixie.github.io/carve-3d.com

関連論文リスト

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation [33.62074896816882]
DiffSplatは,大規模テキスト・画像拡散モデルを用いて3次元ガウススプラットを生成する新しい3次元生成フレームワークである。従来の3D生成モデルと異なり、Webスケールの2D事前を効果的に活用しつつ、統一モデルにおける3D一貫性を維持している。これらの格子上の正規拡散損失と合わせて、3Dレンダリング損失を導入し、任意のビューの3Dコヒーレンスを促進する。
論文参考訳（メタデータ） (2025-01-28T07:38:59Z)
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文参考訳（メタデータ） (2024-12-24T17:36:34Z)
PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文参考訳（メタデータ） (2024-07-19T02:00:04Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文参考訳（メタデータ） (2024-05-31T08:18:39Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文参考訳（メタデータ） (2024-03-18T17:59:12Z)
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文参考訳（メタデータ） (2024-03-18T17:48:15Z)
Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文参考訳（メタデータ） (2023-04-13T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。