論文の概要: Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.01774v1
- Date: Mon, 03 Mar 2025 17:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:11.814683
- Title: Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
- Title(参考訳): Difix3D+: 単段拡散モデルによる3次元再構成の改良
- Authors: Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling,
- Abstract要約: 本稿では,3次元再構成と新規ビュー合成を向上する新しいパイプラインであるDifix3D+を紹介する。
このアプローチのコアとなるのは、レンダリングされた新規ビューにおけるアーティファクトの強化と削除のためにトレーニングされた、単一ステップのイメージ拡散モデルであるDifixです。
- 参考スコア(独自算出の注目度): 65.90387371072413
- License:
- Abstract: Neural Radiance Fields and 3D Gaussian Splatting have revolutionized 3D reconstruction and novel-view synthesis task. However, achieving photorealistic rendering from extreme novel viewpoints remains challenging, as artifacts persist across representations. In this work, we introduce Difix3D+, a novel pipeline designed to enhance 3D reconstruction and novel-view synthesis through single-step diffusion models. At the core of our approach is Difix, a single-step image diffusion model trained to enhance and remove artifacts in rendered novel views caused by underconstrained regions of the 3D representation. Difix serves two critical roles in our pipeline. First, it is used during the reconstruction phase to clean up pseudo-training views that are rendered from the reconstruction and then distilled back into 3D. This greatly enhances underconstrained regions and improves the overall 3D representation quality. More importantly, Difix also acts as a neural enhancer during inference, effectively removing residual artifacts arising from imperfect 3D supervision and the limited capacity of current reconstruction models. Difix3D+ is a general solution, a single model compatible with both NeRF and 3DGS representations, and it achieves an average 2$\times$ improvement in FID score over baselines while maintaining 3D consistency.
- Abstract(参考訳): ニューラル・ラジアンス・フィールドと3Dガウス・スプラッティングは3次元再構成と新規合成タスクに革命をもたらした。
しかし、極端に新しい視点からフォトリアリスティックなレンダリングを実現することは、人工物が表現にまたがって続くため、依然として困難である。
本研究では, 単一ステップ拡散モデルによる3次元再構成と新規ビュー合成を向上する新しいパイプラインであるDifix3D+を紹介する。
提案手法のコアとなるのは,3次元表現の制約の少ない領域によって引き起こされる新しいビューのアーチファクトの強化と除去を訓練した,単一ステップのイメージ拡散モデルであるDifixである。
Difixはパイプラインで2つの重要な役割を担います。
まず、復元段階で使用し、復元からレンダリングされた擬似学習ビューを3Dに抽出する。
これにより、制約の少ない領域が大幅に向上し、全体の3D表現品質が向上する。
さらに重要なことは、Difixは推論中にニューラルエンハンサーとして機能し、不完全な3D監視と現在の再構築モデルの限られた容量から生じる残留アーティファクトを効果的に除去する。
Difix3D+は一般的なソリューションであり、NeRFと3DGSの両方の表現と互換性のある単一のモデルであり、3D一貫性を維持しながらベースラインよりもFIDスコアが平均2$\times$改善されている。
関連論文リスト
- LiftRefine: Progressively Refined View Synthesis from 3D Lifting with Volume-Triplane Representations [21.183524347952762]
単視点または少数視点の入力画像から3次元のニューラルフィールドを用いた新しいビュー合成法を提案する。
我々の再構成モデルはまず、粗いスケールの3D表現として1つ以上の入力画像をボリュームから3D空間に持ち上げる。
我々の拡散モデルは、三面体からのレンダリング画像に欠けている詳細を幻覚させる。
論文 参考訳(メタデータ) (2024-12-19T02:23:55Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。