論文の概要: MegaLoc: One Retrieval to Place Them All
- arxiv url: http://arxiv.org/abs/2502.17237v1
- Date: Mon, 24 Feb 2025 15:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:54.220761
- Title: MegaLoc: One Retrieval to Place Them All
- Title(参考訳): MegaLoc:すべてのテーマを検索する1つの方法
- Authors: Gabriele Berton, Carlo Masone,
- Abstract要約: 与えられたクエリと同じ位置から画像を取得することは、複数のコンピュータビジョンタスクの重要なコンポーネントである。
既存のソリューションは、これらのタスクの1つに特化して構築されており、要件がわずかに変更された場合や、アウト・オブ・ディストリビューション(out-of-distriion)データを満たす場合に失敗することが知られている。
本稿では,既存の手法,トレーニング手法,データセットを組み合わせて,複数のタスクで実行されるMegaLocと呼ばれる検索モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 4.26418434320899
- License:
- Abstract: Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc
- Abstract(参考訳): 与えられたクエリと同じ場所からイメージを取得することは、視覚的場所認識、ランドマーク検索、視覚的ローカライゼーション、3D再構成、SLAMなど、複数のコンピュータビジョンタスクの重要なコンポーネントである。
しかしながら、既存のソリューションは、これらのタスクの1つに特化して構築されており、要件がわずかに変更されたり、配布外データに到達した場合に失敗することが知られている。
本稿では,既存の手法,トレーニング手法,データセットを組み合わせて,複数のタスクで実行されるMegaLocと呼ばれる検索モデルをトレーニングする。
その結果,MegaLoc (1)は多数の視覚的位置認識データセットの最先端化,(2)共通のランドマーク検索データセットの印象的な結果,(3)LaMARデータセットのビジュアルローカライゼーションのための新たな最先端設定を実現し,検索手法を既存のローカライゼーションパイプラインにのみ変更した。
MegaLocのコードはhttps://github.com/gmberton/MegaLocで入手できる。
関連論文リスト
- R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization [66.87005863868181]
可視性グラフに基づくグローバルエンコーディング学習とデータ拡張戦略を導入する。
ネットワークアーキテクチャとローカル特徴抽出モジュールを再考する。
本手法は,ネットワークアンサンブルや3D監視に頼ることなく,大規模データセットに挑戦する最先端の手法を実現する。
論文 参考訳(メタデータ) (2025-01-02T18:59:08Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation [9.161203553842787]
画像位置情報をテキスト生成タスクとして再定義する新しいシステムであるImg2Locを提案する。
Img2LocはまずCLIPベースの表現を使用して画像ベースの座標クエリデータベースを生成する。
そして、クエリ結果と画像自体を一意に結合し、LMM用にカスタマイズされた精巧なプロンプトを形成する。
Im2GPS3kやYFCC4kのようなベンチマークデータセットでテストする場合、Img2Locは従来の最先端モデルのパフォーマンスを上回るだけでなく、モデルトレーニングなしでテストする。
論文 参考訳(メタデータ) (2024-03-28T17:07:02Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - 3DoF Localization from a Single Image and an Object Map: the Flatlandia
Problem and Dataset [20.986848597435728]
本稿では,新しい視覚的ローカライゼーション課題であるFlatlandiaを提案する。
地図内の対象の既知の空間的レイアウトに対して検出された共通オブジェクトのレイアウトを比較することで、視覚的クエリーをローカライズできるかどうかを検討する。
それぞれに対して,初期ベースラインモデルを提案し,最先端の6DoF法と3DoF法と比較する。
論文 参考訳(メタデータ) (2023-04-13T09:53:09Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - Map-free Visual Relocalization: Metric Pose Relative to a Single Image [21.28513803531557]
本研究では,シーンの1枚の写真のみを用いて,地図のない再ローカライズを提案し,即時でスケールした再ローカライズを実現する。
既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。
我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の小さな関心事のデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-11T14:49:49Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。