論文の概要: FlowR: Flowing from Sparse to Dense 3D Reconstructions
- arxiv url: http://arxiv.org/abs/2504.01647v1
- Date: Wed, 02 Apr 2025 11:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:24.653359
- Title: FlowR: Flowing from Sparse to Dense 3D Reconstructions
- Title(参考訳): FlowR: スパースから高密度3次元再構成へ流れる流れ
- Authors: Tobias Fischer, Samuel Rota Bulò, Yung-Hsu Yang, Nikhil Varma Keetha, Lorenzo Porzi, Norman Müller, Katja Schwarz, Jonathon Luiten, Marc Pollefeys, Peter Kontschieder,
- Abstract要約: 本稿では,新しいビューレンダリングを高密度再構成で期待するレンダリングに接続するフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
- 参考スコア(独自算出の注目度): 60.6368083163258
- License:
- Abstract: 3D Gaussian splatting enables high-quality novel view synthesis (NVS) at real-time frame rates. However, its quality drops sharply as we depart from the training views. Thus, dense captures are needed to match the high-quality expectations of some applications, e.g. Virtual Reality (VR). However, such dense captures are very laborious and expensive to obtain. Existing works have explored using 2D generative models to alleviate this requirement by distillation or generating additional training views. These methods are often conditioned only on a handful of reference input views and thus do not fully exploit the available 3D information, leading to inconsistent generation results and reconstruction artifacts. To tackle this problem, we propose a multi-view, flow matching model that learns a flow to connect novel view renderings from possibly sparse reconstructions to renderings that we expect from dense reconstructions. This enables augmenting scene captures with novel, generated views to improve reconstruction quality. Our model is trained on a novel dataset of 3.6M image pairs and can process up to 45 views at 540x960 resolution (91K tokens) on one H100 GPU in a single forward pass. Our pipeline consistently improves NVS in sparse- and dense-view scenarios, leading to higher-quality reconstructions than prior works across multiple, widely-used NVS benchmarks.
- Abstract(参考訳): 3Dガウススプラッティングは、高品質のノベルビュー合成(NVS)をリアルタイムフレームレートで実現する。
しかしながら、トレーニングの視点から離れるにつれて、品質は大幅に低下します。
したがって、いくつかのアプリケーションの高品質な期待に合わせるために、例えばVR(Virtual Reality)のような密集したキャプチャが必要である。
しかし、このような密集した捕獲は困難であり、入手には費用がかかる。
既存の研究では2次元生成モデルを用いて蒸留や追加のトレーニングビューの生成によってこの要件を緩和している。
これらの手法は、少数の参照入力ビューにのみ条件付けされているため、利用可能な3D情報を十分に活用できないため、一貫性のない生成結果や再構成成果物が生成される。
この問題に対処するため,多視点フローマッチングモデルを提案する。
これにより、新しい、生成されたビューでシーンキャプチャを拡大し、再構築品質を向上させることができる。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
我々のパイプラインは、スパースと密度の高いシナリオでNVSを継続的に改善し、複数の広く使用されているNVSベンチマークでの以前の作業よりも高品質な再構築につながります。
関連論文リスト
- Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルから潜伏木を用いた大規模再構成モデルを導入し,シーンの3次元ガウススプラッティングを予測する。
プログレッシブトレーニング戦略により,映像潜時空間上での3D再構成モデルをトレーニングし,高品質,広スコープ,汎用的な3Dシーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - Quark: Real-time, High-resolution, and General Neural View Synthesis [14.614589047064191]
本稿では,高品質,高解像度,リアルタイムの新規ビュー合成を実現するためのニューラルアルゴリズムを提案する。
入力されたRGB画像やビデオストリームのスパースセットから、3Dシーンを再構築し、NVIDIA A100上で1080pの解像度で新しいビューを30fpsでレンダリングします。
論文 参考訳(メタデータ) (2024-11-25T18:59:50Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - SCube: Instant Large-Scale Scene Reconstruction using VoxSplats [55.383993296042526]
SCubeは画像の粗い集合から大規模3次元シーン(幾何学、外観、意味論)を再構成する新しい手法である。
提案手法は,高解像度のスパース・ボクセル・足場上に支持された3次元ガウスの組である,新しい表現VoxSplatを用いて再構成シーンを符号化する。
論文 参考訳(メタデータ) (2024-10-26T00:52:46Z) - MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views [27.47491233656671]
新規ビュー合成(NVS)は3次元視覚アプリケーションにおいて重要な課題である。
我々は,3次元ガウススプラッティングに基づくマルチビュー先行を探索する数ショットNVS法である textbfMVPGS を提案する。
実験により,提案手法はリアルタイムレンダリング速度で最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-22T05:07:20Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。