論文の概要: SAIL-Recon: Large SfM by Augmenting Scene Regression with Localization
- arxiv url: http://arxiv.org/abs/2508.17972v1
- Date: Mon, 25 Aug 2025 12:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.777916
- Title: SAIL-Recon: Large SfM by Augmenting Scene Regression with Localization
- Title(参考訳): SAIL-Recon: 局所化によるシーン回帰を増強した大型SfM
- Authors: Junyuan Deng, Heng Li, Tao Xie, Weiqiang Ren, Qian Zhang, Ping Tan, Xiaoyang Guo,
- Abstract要約: 大規模SfMのためのフィードフォワード変換器SAIL-Reconを紹介する。
提案手法はまず,アンカー画像のサブセットからニューラルシーン表現を計算する。
そして、回帰ネットワークを微調整して、このニューラルシーン表現に条件付けられた全ての入力画像を再構成する。
- 参考スコア(独自算出の注目度): 33.31942454376888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene regression methods, such as VGGT, solve the Structure-from-Motion (SfM) problem by directly regressing camera poses and 3D scene structures from input images. They demonstrate impressive performance in handling images under extreme viewpoint changes. However, these methods struggle to handle a large number of input images. To address this problem, we introduce SAIL-Recon, a feed-forward Transformer for large scale SfM, by augmenting the scene regression network with visual localization capabilities. Specifically, our method first computes a neural scene representation from a subset of anchor images. The regression network is then fine-tuned to reconstruct all input images conditioned on this neural scene representation. Comprehensive experiments show that our method not only scales efficiently to large-scale scenes, but also achieves state-of-the-art results on both camera pose estimation and novel view synthesis benchmarks, including TUM-RGBD, CO3Dv2, and Tanks & Temples. We will publish our model and code. Code and models are publicly available at: https://hkust-sail.github.io/ sail-recon/.
- Abstract(参考訳): VGGTのようなシーン回帰手法は、入力画像からカメラポーズや3Dシーン構造を直接回帰することで、Structure-from-Motion(SfM)問題を解決する。
彼らは、極端な視点の変化下でのイメージの扱いにおける印象的なパフォーマンスを実演した。
しかし,これらの手法は多数の入力画像を扱うのに苦労している。
この問題を解決するために,大規模SfMのためのフィードフォワード変換器であるSAIL-Reconを導入する。
具体的には、まず、アンカー画像のサブセットからニューラルネットワークのシーン表現を計算する。
そして、回帰ネットワークを微調整して、このニューラルシーン表現に条件付けられた全ての入力画像を再構成する。
総合的な実験により,本手法は大規模シーンに効率よくスケールするだけでなく,TUM-RGBD,CO3Dv2,Turps & Templesなど,カメラポーズ推定と新しいビュー合成ベンチマークの両面において,最先端の結果が得られることが示された。
私たちはモデルとコードを公開します。
コードとモデルは、https://hkust-sail.github.io/ sail-recon/.comで公開されている。
関連論文リスト
- ZeroGS: Training 3D Gaussian Splatting from Unposed Images [62.34149221132978]
我々はZeroGSを提案し、3DGSを何百もの未提示画像から訓練する。
本手法は,事前学習した基礎モデルをニューラルネットワークのシーン表現として活用する。
提案手法は,最先端のポーズレスNeRF/3DGS法よりも高精度なカメラポーズを復元する。
論文 参考訳(メタデータ) (2024-11-24T11:20:48Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer [21.832249148699397]
シーンを描写した画像からカメラパラメータを推定するタスクに対処する。
学習に基づく再ローカライズ手法であるシーン座標回帰により、未提示画像から暗黙的なニューラルシーン表現を構築することができることを示す。
論文 参考訳(メタデータ) (2024-04-22T17:02:33Z) - 3D Reconstruction with Generalizable Neural Fields using Scene Priors [71.37871576124789]
シーンプライオリティ(NFP)を取り入れたトレーニング一般化型ニューラルフィールドを提案する。
NFPネットワークは、任意のシングルビューRGB-D画像を符号付き距離と放射値にマッピングする。
融合モジュールを外した体積空間内の個々のフレームをマージすることにより、完全なシーンを再構築することができる。
論文 参考訳(メタデータ) (2023-09-26T18:01:02Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。