論文の概要: MegaLoc: One Retrieval to Place Them All
- arxiv url: http://arxiv.org/abs/2502.17237v3
- Date: Tue, 10 Jun 2025 02:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 19:51:30.152317
- Title: MegaLoc: One Retrieval to Place Them All
- Title(参考訳): MegaLoc:すべてのテーマを検索する1つの方法
- Authors: Gabriele Berton, Carlo Masone,
- Abstract要約: 与えられたクエリと同じ位置から画像を取得することは、複数のコンピュータビジョンタスクの重要なコンポーネントである。
既存のソリューションは、これらのタスクの1つに特化して構築されており、要件がわずかに変更された場合や、アウト・オブ・ディストリビューション(out-of-distriion)データを満たす場合に失敗することが知られている。
本稿では,既存の手法,トレーニング手法,データセットを組み合わせて,複数のタスクで実行されるMegaLocと呼ばれる検索モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 4.26418434320899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving images from the same location as a given query is an important component of multiple computer vision tasks, like Visual Place Recognition, Landmark Retrieval, Visual Localization, 3D reconstruction, and SLAM. However, existing solutions are built to specifically work for one of these tasks, and are known to fail when the requirements slightly change or when they meet out-of-distribution data. In this paper we combine a variety of existing methods, training techniques, and datasets to train a retrieval model, called MegaLoc, that is performant on multiple tasks. We find that MegaLoc (1) achieves state of the art on a large number of Visual Place Recognition datasets, (2) impressive results on common Landmark Retrieval datasets, and (3) sets a new state of the art for Visual Localization on the LaMAR datasets, where we only changed the retrieval method to the existing localization pipeline. The code for MegaLoc is available at https://github.com/gmberton/MegaLoc
- Abstract(参考訳): 与えられたクエリと同じ場所からイメージを取得することは、視覚的場所認識、ランドマーク検索、視覚的ローカライゼーション、3D再構成、SLAMなど、複数のコンピュータビジョンタスクの重要なコンポーネントである。
しかしながら、既存のソリューションは、これらのタスクの1つに特化して構築されており、要件がわずかに変更されたり、配布外データに到達した場合に失敗することが知られている。
本稿では,既存の手法,トレーニング手法,データセットを組み合わせて,複数のタスクで実行されるMegaLocと呼ばれる検索モデルをトレーニングする。
その結果,MegaLoc (1)は多数の視覚的位置認識データセットの最先端化,(2)共通のランドマーク検索データセットの印象的な結果,(3)LaMARデータセットのビジュアルローカライゼーションのための新たな最先端設定を実現し,検索手法を既存のローカライゼーションパイプラインにのみ変更した。
MegaLocのコードはhttps://github.com/gmberton/MegaLocで入手できる。
関連論文リスト
- A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。
その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-18T07:39:50Z) - MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain [3.236198583140341]
本研究は, 海上域におけるビデオフライオーバー視点問題に対する3次元シーン再構成に取り組む。
MTReDと命名された新しい海洋3次元シーン再構築ベンチマークデータセットを提案する。
MTReDは、船、島、海岸線を含むインターネットからキュレーションされた19のフライオーバービデオで構成されている。
論文 参考訳(メタデータ) (2025-03-02T11:10:34Z) - R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization [66.87005863868181]
可視性グラフに基づくグローバルエンコーディング学習とデータ拡張戦略を導入する。
ネットワークアーキテクチャとローカル特徴抽出モジュールを再考する。
本手法は,ネットワークアンサンブルや3D監視に頼ることなく,大規模データセットに挑戦する最先端の手法を実現する。
論文 参考訳(メタデータ) (2025-01-02T18:59:08Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - 3DoF Localization from a Single Image and an Object Map: the Flatlandia
Problem and Dataset [20.986848597435728]
本稿では,新しい視覚的ローカライゼーション課題であるFlatlandiaを提案する。
地図内の対象の既知の空間的レイアウトに対して検出された共通オブジェクトのレイアウトを比較することで、視覚的クエリーをローカライズできるかどうかを検討する。
それぞれに対して,初期ベースラインモデルを提案し,最先端の6DoF法と3DoF法と比較する。
論文 参考訳(メタデータ) (2023-04-13T09:53:09Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D
Images [58.720142291102135]
本稿では,屋内環境における視覚的位置認識能力の探索を目的とした,HPointLocという新しいデータセットを提案する。
データセットは人気のあるHabitatシミュレータに基づいており、独自のセンサーデータとオープンデータセットの両方を使用して屋内シーンを生成することができる。
論文 参考訳(メタデータ) (2022-12-30T12:20:56Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。