論文の概要: GenFusion: Closing the Loop between Reconstruction and Generation via Videos
- arxiv url: http://arxiv.org/abs/2503.21219v1
- Date: Thu, 27 Mar 2025 07:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:23.165698
- Title: GenFusion: Closing the Loop between Reconstruction and Generation via Videos
- Title(参考訳): GenFusion:ビデオで再現と生成のループを閉じる
- Authors: Sibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger, Anpei Chen,
- Abstract要約: 本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
- 参考スコア(独自算出の注目度): 24.195304481751602
- License:
- Abstract: Recently, 3D reconstruction and generation have demonstrated impressive novel view synthesis results, achieving high fidelity and efficiency. However, a notable conditioning gap can be observed between these two fields, e.g., scalable 3D scene reconstruction often requires densely captured views, whereas 3D generation typically relies on a single or no input view, which significantly limits their applications. We found that the source of this phenomenon lies in the misalignment between 3D constraints and generative priors. To address this problem, we propose a reconstruction-driven video diffusion model that learns to condition video frames on artifact-prone RGB-D renderings. Moreover, we propose a cyclical fusion pipeline that iteratively adds restoration frames from the generative model to the training set, enabling progressive expansion and addressing the viewpoint saturation limitations seen in previous reconstruction and generation pipelines. Our evaluation, including view synthesis from sparse view and masked input, validates the effectiveness of our approach.
- Abstract(参考訳): 近年, 3次元再構成と生成は, 高い忠実度と効率性を実現し, 目覚ましいビュー合成結果を示している。
しかし、例えば、スケーラブルな3Dシーン再構成は、しばしば密集したビューを必要とするが、3D生成は通常、単一のまたは全くの入力ビューに依存しており、それらはアプリケーションを大幅に制限する。
この現象の原因は,3次元制約と生成前との相違にあることが判明した。
この問題に対処するために,アーティファクトのRGB-Dレンダリング上でビデオフレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
さらに, 生成モデルからトレーニングセットへの復元フレームを反復的に追加し, 進行的拡張を可能にし, 以前の再構成・生成パイプラインに見られる視点飽和制限に対処する循環核融合パイプラインを提案する。
スパースビューからのビュー合成とマスク入力を含む評価により,本手法の有効性が検証された。
関連論文リスト
- LiftRefine: Progressively Refined View Synthesis from 3D Lifting with Volume-Triplane Representations [21.183524347952762]
単視点または少数視点の入力画像から3次元のニューラルフィールドを用いた新しいビュー合成法を提案する。
我々の再構成モデルはまず、粗いスケールの3D表現として1つ以上の入力画像をボリュームから3D空間に持ち上げる。
我々の拡散モデルは、三面体からのレンダリング画像に欠けている詳細を幻覚させる。
論文 参考訳(メタデータ) (2024-12-19T02:23:55Z) - Pragmatist: Multiview Conditional Diffusion Models for High-Fidelity 3D Reconstruction from Unposed Sparse Views [23.94629999419033]
スパースから3D構造を推定すると、制約のない性質のため、予期せぬ観測は困難である。
近年,データ駆動型入力から暗黙の表現を直接予測し,有望な結果を得る方法が提案されている。
本研究では,限られた入力ビューから完全な観測結果を生成し,再構成を容易にする条件付き新規なビュー合成を提案する。
論文 参考訳(メタデータ) (2024-12-11T14:30:24Z) - 3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors [13.191199172286508]
新規ビュー合成は、複数の入力画像やビデオからシーンの新しいビューを生成することを目的としている。
3DGS-Enhancerは、3DGS表現の表現品質を向上させるための新しいパイプラインである。
論文 参考訳(メタデータ) (2024-10-21T17:59:09Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - UNeR3D: Versatile and Scalable 3D RGB Point Cloud Generation from 2D
Images in Unsupervised Reconstruction [2.7848140839111903]
UNeR3Dは、2Dビューのみから詳細な3D再構成を生成するための新しい標準を設定している。
私たちのモデルは、教師付きアプローチに関連するトレーニングコストを大幅に削減します。
UNeR3Dはシームレスな色遷移を保証し、視力を高める。
論文 参考訳(メタデータ) (2023-12-10T15:18:55Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。