論文の概要: Light3R-SfM: Towards Feed-forward Structure-from-Motion
- arxiv url: http://arxiv.org/abs/2501.14914v1
- Date: Fri, 24 Jan 2025 20:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:24.284939
- Title: Light3R-SfM: Towards Feed-forward Structure-from-Motion
- Title(参考訳): Light3R-SfM:フィードフォワード構造に向けて
- Authors: Sven Elflein, Qunjie Zhou, Sérgio Agostinho, Laura Leal-Taixé,
- Abstract要約: Light3R-SfMは、大規模なStructure-from-Motionを効率的に構築するためのフィードフォワード、エンドツーエンドの学習可能なフレームワークである。
この研究は、データ駆動でフィードフォワードのSfMアプローチの先駆者であり、スケーラブルで正確で効率的な3D再構築への道を開いた。
- 参考スコア(独自算出の注目度): 34.47706116389972
- License:
- Abstract: We present Light3R-SfM, a feed-forward, end-to-end learnable framework for efficient large-scale Structure-from-Motion (SfM) from unconstrained image collections. Unlike existing SfM solutions that rely on costly matching and global optimization to achieve accurate 3D reconstructions, Light3R-SfM addresses this limitation through a novel latent global alignment module. This module replaces traditional global optimization with a learnable attention mechanism, effectively capturing multi-view constraints across images for robust and precise camera pose estimation. Light3R-SfM constructs a sparse scene graph via retrieval-score-guided shortest path tree to dramatically reduce memory usage and computational overhead compared to the naive approach. Extensive experiments demonstrate that Light3R-SfM achieves competitive accuracy while significantly reducing runtime, making it ideal for 3D reconstruction tasks in real-world applications with a runtime constraint. This work pioneers a data-driven, feed-forward SfM approach, paving the way toward scalable, accurate, and efficient 3D reconstruction in the wild.
- Abstract(参考訳): 我々は、制約のない画像コレクションから、大規模なStructure-from-Motion(SfM)を効率的に作成するためのフィードフォワード、エンドツーエンドの学習可能なフレームワークLight3R-SfMを提案する。
正確な3D再構成を実現するためにコストのかかるマッチングとグローバル最適化を頼りにしている既存のSfMソリューションとは異なり、Light3R-SfMは新たなグローバルアライメントモジュールを通じてこの制限に対処する。
このモジュールは、従来のグローバル最適化を学習可能なアテンションメカニズムに置き換え、画像間のマルチビュー制約を効果的にキャプチャして、堅牢で正確なカメラポーズ推定を行う。
Light3R-SfMは、検索スコア誘導経路木を介してスパースシーングラフを構築し、単純アプローチに比べてメモリ使用量と計算オーバーヘッドを劇的に削減する。
大規模な実験により、Light3R-SfMは、ランタイムを大幅に削減しながら、競合精度を達成し、ランタイム制約のある実世界のアプリケーションで3D再構成タスクに最適であることが示された。
この研究は、データ駆動でフィードフォワードのSfMアプローチの先駆者であり、スケーラブルで正確で効率的な3D再構築への道を開いた。
関連論文リスト
- PreF3R: Pose-Free Feed-Forward 3D Gaussian Splatting from Variable-length Image Sequence [3.61512056914095]
可変長の画像列から,PreF3R, Pose-Free Feed-forward 3D再構成を提案する。
PreF3Rは、カメラキャリブレーションの必要性を排除し、正準座標フレーム内の3次元ガウス場を、未提示画像のシーケンスから直接再構成する。
論文 参考訳(メタデータ) (2024-11-25T19:16:29Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MASt3R-SfM: a Fully-Integrated Solution for Unconstrained Structure-from-Motion [12.602510002753815]
我々は最近リリースされた3Dビジョンのための基礎モデルを構築し、局所的な3D再構成と正確なマッチングを堅牢に生成できる。
グローバル座標系における局所的再構成を正確に調整するための低メモリ方式を提案する。
私たちの新しいSfMパイプラインはシンプルで、スケーラブルで、高速で、本当に制約を受けていない。
論文 参考訳(メタデータ) (2024-09-27T21:29:58Z) - HGSLoc: 3DGS-based Heuristic Camera Pose Refinement [13.393035855468428]
視覚的ローカライゼーションは、既知のシーン表現内のカメラのポーズと方向を決定するプロセスを指す。
本稿では,3次元再構成と改良戦略を統合したHGSLocを提案する。
提案手法は,NeRFベースのニューラルレンダリング手法と比較して,高速なレンダリング速度とローカライズ精度を示す。
論文 参考訳(メタデータ) (2024-09-17T06:48:48Z) - Correspondence-Guided SfM-Free 3D Gaussian Splatting for NVS [52.3215552448623]
SfM(Structure-from-Motion)事前処理カメラのポーズのない新しいビュー合成(NVS)は、迅速な応答能力の向上と、可変動作条件に対する堅牢性の向上に不可欠である。
最近のSfMフリー手法は、ポーズ最適化を統合し、共同カメラのポーズ推定とNVSのためのエンドツーエンドフレームワークを設計している。
既存の作業の多くは、L2損失のようなピクセル単位の画像損失関数に依存している。
本研究では,NVSのためのSfMフリー3次元ガウススプラッティングを提案する。
論文 参考訳(メタデータ) (2024-08-16T13:11:22Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - GGRt: Towards Pose-free Generalizable 3D Gaussian Splatting in Real-time [112.32349668385635]
GGRtは、現実のカメラポーズの必要性を軽減する、一般化可能な新しいビュー合成のための新しいアプローチである。
最初のポーズフリーの一般化可能な3D-GSフレームワークとして、GGRtは$ge$5 FPSで、リアルタイムレンダリングは$ge$100 FPSで実現している。
論文 参考訳(メタデータ) (2024-03-15T09:47:35Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - AdaSfM: From Coarse Global to Fine Incremental Adaptive Structure from
Motion [48.835456049755166]
AdaSfMは粗粒度適応型SfMアプローチであり、大規模かつ挑戦的なデータセットにスケーラブルである。
当社のアプローチはまず,低コストセンサによる計測を利用して,ビューグラフの信頼性を向上させる,粗大なグローバルSfMを実現する。
本手法では,全局所再構成をグローバルSfMの座標フレームに整合させるため,しきい値適応戦略を用いる。
論文 参考訳(メタデータ) (2023-01-28T09:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。