論文の概要: FlowR: Flowing from Sparse to Dense 3D Reconstructions
- arxiv url: http://arxiv.org/abs/2504.01647v2
- Date: Mon, 04 Aug 2025 19:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.964354
- Title: FlowR: Flowing from Sparse to Dense 3D Reconstructions
- Title(参考訳): FlowR: スパースから高密度3次元再構成へ流れる流れ
- Authors: Tobias Fischer, Samuel Rota Bulò, Yung-Hsu Yang, Nikhil Keetha, Lorenzo Porzi, Norman Müller, Katja Schwarz, Jonathon Luiten, Marc Pollefeys, Peter Kontschieder,
- Abstract要約: そこで本研究では,疎度な再現から密度な再構成に期待できるレンダリングまで,新しいビューレンダリングを接続するためのフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
- 参考スコア(独自算出の注目度): 60.28571003356382
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: 3D Gaussian splatting enables high-quality novel view synthesis (NVS) at real-time frame rates. However, its quality drops sharply as we depart from the training views. Thus, dense captures are needed to match the high-quality expectations of applications like Virtual Reality (VR). However, such dense captures are very laborious and expensive to obtain. Existing works have explored using 2D generative models to alleviate this requirement by distillation or generating additional training views. These models typically rely on a noise-to-data generative process conditioned only on a handful of reference input views, leading to hallucinations, inconsistent generation results, and subsequent reconstruction artifacts. Instead, we propose a multi-view, flow matching model that learns a flow to directly connect novel view renderings from possibly sparse reconstructions to renderings that we expect from dense reconstructions. This enables augmenting scene captures with consistent, generated views to improve reconstruction quality. Our model is trained on a novel dataset of 3.6M image pairs and can process up to 45 views at 540x960 resolution (91K tokens) on one H100 GPU in a single forward pass. Our pipeline consistently improves NVS in sparse- and dense-view scenarios, leading to higher-quality reconstructions than prior works across multiple, widely-used NVS benchmarks.
- Abstract(参考訳): 3Dガウススプラッティングは、高品質のノベルビュー合成(NVS)をリアルタイムフレームレートで実現する。
しかしながら、トレーニングの視点から離れるにつれて、品質は大幅に低下します。
したがって、VR(Virtual Reality)のようなアプリケーションの高品質な期待に合わせるには、密集したキャプチャが必要である。
しかし、このような密集した捕獲は困難であり、入手には費用がかかる。
既存の研究では2次元生成モデルを用いて蒸留や追加のトレーニングビューの生成によってこの要件を緩和している。
これらのモデルは典型的には、少数の参照入力ビューのみを条件としたノイズ・ツー・データ生成プロセスに依存し、幻覚、一貫性のない生成結果、そしてその後の再構築成果物に繋がる。
そこで我々は,多視点のフローマッチングモデルを提案する。このモデルでは,疎度な再現から,密度な再構成から期待するレンダリングまで,新しいビューレンダリングを直接接続するフローを学習する。
これにより、シーンキャプチャを一貫した、生成されたビューで拡張し、再構築品質を改善することができる。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
我々のパイプラインは、スパースと密度の高いシナリオでNVSを継続的に改善し、複数の広く使用されているNVSベンチマークでの以前の作業よりも高品質な再構築につながります。
関連論文リスト
- SparSplat: Fast Multi-View Reconstruction with Generalizable 2D Gaussian Splatting [7.9061560322289335]
スパースビュー画像から3次元形状再構成とNVSを行うために、フィードフォワード方式で2DGS表面パラメータを回帰するMVSベースの学習を提案する。
結果として得られるパイプラインは、DTU 3D再構築ベンチマークにおける最先端の成果を、最先端のNVSと同様に、チャンファーから地底までの距離で達成する。
論文 参考訳(メタデータ) (2025-05-04T16:33:47Z) - Free360: Layered Gaussian Splatting for Unbounded 360-Degree View Synthesis from Extremely Sparse and Unposed Views [29.85363432402896]
本研究では,非有界な360degシーンにおいて,非有界かつ極めてスパースな3次元再構成を実現するための新しいニューラルネットワークレンダリングフレームワークを提案する。
密集したステレオ再構成モデルを用いて粗い形状を復元し, ノイズを低減し, 閉塞領域を埋めるために, 層特異的なブートストラップ最適化を導入する。
提案手法は,レンダリング品質と表面再構成精度において,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-03-31T17:59:25Z) - GenFusion: Closing the Loop between Reconstruction and Generation via Videos [24.195304481751602]
本稿では,再現性のあるRGB-Dレンダリングにおける映像フレームの条件付けを学習する再構成駆動型ビデオ拡散モデルを提案する。
また、生成モデルからトレーニングセットへの復元フレームを反復的に追加する循環核融合パイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-27T07:16:24Z) - SplatVoxel: History-Aware Novel View Streaming without Temporal Training [29.759664150610362]
スパースビュー映像からの新たなビューストリーミングの問題について検討する。
既存のビュー合成手法は、時間的コヒーレンスと視覚的忠実さに苦慮している。
本稿では,ハイブリッド型スプラ・ボクセルフィードフォワードシーン再構築手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T20:00:47Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - SparseGS: Real-Time 360° Sparse View Synthesis using Gaussian Splatting [6.506706621221143]
3D Splatting (3DGS)は3Dシーンをリアルタイムにレンダリングして新しいビュー合成を実現した。
この技術は3次元幾何学を正確に再構築するために、密集したトレーニングビューを必要とする。
スパーストレーニングビューのシナリオにおける3DGSの限界に対処するために設計された,効率的なトレーニングパイプラインであるSparseGSを紹介した。
論文 参考訳(メタデータ) (2023-11-30T21:38:22Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。