論文の概要: A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features
- arxiv url: http://arxiv.org/abs/2510.00978v1
- Date: Wed, 01 Oct 2025 14:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.626017
- Title: A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features
- Title(参考訳): A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a collection of Image Features
- Authors: Axel Barroso-Laguna, Tommaso Cavallari, Victor Adrian Prisacariu, Eric Brachmann,
- Abstract要約: 我々は、地図表現を作成し、クエリ画像をオンザフライで再ローカライズするFastForwardを紹介する。
FastForwardはこれらのマッピング機能を使用して、クエリ画像のイメージとシーンの対応を予測し、カメラのポーズを推定する。
- 参考スコア(独自算出の注目度): 28.983435462678248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually localizing an image, i.e., estimating its camera pose, requires building a scene representation that serves as a visual map. The representation we choose has direct consequences towards the practicability of our system. Even when starting from mapping images with known camera poses, state-of-the-art approaches still require hours of mapping time in the worst case, and several minutes in the best. This work raises the question whether we can achieve competitive accuracy much faster. We introduce FastForward, a method that creates a map representation and relocalizes a query image on-the-fly in a single feed-forward pass. At the core, we represent multiple mapping images as a collection of features anchored in 3D space. FastForward utilizes these mapping features to predict image-to-scene correspondences for the query image, enabling the estimation of its camera pose. We couple FastForward with image retrieval and achieve state-of-the-art accuracy when compared to other approaches with minimal map preparation time. Furthermore, FastForward demonstrates robust generalization to unseen domains, including challenging large-scale outdoor environments.
- Abstract(参考訳): 画像を視覚的にローカライズする、すなわちカメラのポーズを推定するには、視覚マップとして機能するシーン表現を構築する必要がある。
私たちが選択した表現は、システムの実践性に対して直接的な結果をもたらす。
画像と既知のカメラのポーズのマッピングから始めても、最先端のアプローチでは、最悪の場合は数時間のマッピング時間、最高の場合は数分のマッピング時間が必要です。
この研究は、競争の精度をはるかに早く達成できるかどうかという問題を提起する。
我々はFastForwardを紹介した。これは地図表現を作成し、単一のフィードフォワードパスでクエリ画像をオンザフライで再ローカライズする手法である。
中心となるのは、複数のマッピング画像を、3D空間に固定された機能の集合として表現する。
FastForwardはこれらのマッピング機能を使用して、クエリ画像のイメージとシーンの対応を予測し、カメラのポーズを推定する。
我々は、FastForwardを画像検索と組み合わせて、最小限の地図作成時間を持つ他のアプローチと比較して、最先端の精度を実現する。
さらにFastForwardは、大規模屋外環境への挑戦を含む、目に見えない領域への堅牢な一般化を実証している。
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - Fillerbuster: Multi-View Scene Completion for Casual Captures [48.12462469832712]
本稿では,新しい大規模多視点潜伏拡散変換器を用いて3次元シーンの未知領域を完結するFillerbusterを提案する。
我々の解決策は、未知のターゲットビューを生成し、必要に応じて画像のポーズを復元しながら、入力フレームの広いコンテキストを消費できる生成モデルを訓練することである。
論文 参考訳(メタデータ) (2025-02-07T18:59:51Z) - SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs [81.2396059480232]
SceneGraphLocはシーングラフ内の各ノード(つまりオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習する。
画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-30T20:25:16Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - Map-free Visual Relocalization: Metric Pose Relative to a Single Image [21.28513803531557]
本研究では,シーンの1枚の写真のみを用いて,地図のない再ローカライズを提案し,即時でスケールした再ローカライズを実現する。
既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。
我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の小さな関心事のデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-11T14:49:49Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - End-to-end learning of keypoint detection and matching for relative pose
estimation [1.8352113484137624]
2つの画像間の相対的なポーズを推定する新しい手法を提案する。
キーポイント検出,説明抽出,マッチング,ロバストなポーズ推定を共同で学習する。
本研究では,既知のポーズを持つ画像データベース内でのクエリ画像の視覚的局在化の手法を示す。
論文 参考訳(メタデータ) (2021-04-02T15:16:17Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。