論文の概要: VISTA: Monocular Segmentation-Based Mapping for Appearance and View-Invariant Global Localization
- arxiv url: http://arxiv.org/abs/2507.11653v1
- Date: Tue, 15 Jul 2025 18:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.111431
- Title: VISTA: Monocular Segmentation-Based Mapping for Appearance and View-Invariant Global Localization
- Title(参考訳): VISTA: 外観とビュー不変グローバルローカライゼーションのための単眼セグメンテーションに基づくマッピング
- Authors: Hannah Shafferman, Annika Thomas, Jouko Kinnari, Michael Ricard, Jose Nino, Jonathan How,
- Abstract要約: VISTAは、オープンセットで単分子的なグローバルローカライゼーションフレームワークである。
環境マップ間の幾何学的整合性を利用して参照フレームを整列させる。
季節および斜角の航空データセット上でのVISTAの評価を行い,ベースライン法よりも最大69%改善した。
- 参考スコア(独自算出の注目度): 0.2356141385409842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global localization is critical for autonomous navigation, particularly in scenarios where an agent must localize within a map generated in a different session or by another agent, as agents often have no prior knowledge about the correlation between reference frames. However, this task remains challenging in unstructured environments due to appearance changes induced by viewpoint variation, seasonal changes, spatial aliasing, and occlusions -- known failure modes for traditional place recognition methods. To address these challenges, we propose VISTA (View-Invariant Segmentation-Based Tracking for Frame Alignment), a novel open-set, monocular global localization framework that combines: 1) a front-end, object-based, segmentation and tracking pipeline, followed by 2) a submap correspondence search, which exploits geometric consistencies between environment maps to align vehicle reference frames. VISTA enables consistent localization across diverse camera viewpoints and seasonal changes, without requiring any domain-specific training or finetuning. We evaluate VISTA on seasonal and oblique-angle aerial datasets, achieving up to a 69% improvement in recall over baseline methods. Furthermore, we maintain a compact object-based map that is only 0.6% the size of the most memory-conservative baseline, making our approach capable of real-time implementation on resource-constrained platforms.
- Abstract(参考訳): グローバルなローカライゼーションは、特にエージェントが別のセッションまたは他のエージェントによって生成されたマップ内でローカライズしなければならないシナリオにおいて、自律的なナビゲーションにおいて重要である。
しかし、このタスクは、視点の変化、季節変化、空間エイリアス、そして従来の場所認識手法の既知の障害モードによって引き起こされる外観変化のため、非構造化環境では困難なままである。
これらの課題に対処するため、我々は、新しいオープンセットで単眼的なグローバルなローカライゼーションフレームワークであるVISTA(View-Invariant Segmentation-Based Tracking for Frame Alignment)を提案する。
1) フロントエンド、オブジェクトベース、セグメンテーション、追跡パイプライン
2) 環境マップ間の幾何学的整合性を利用して車両基準フレームを整列させるサブマップ対応探索を行う。
VISTAは、ドメイン固有のトレーニングや微調整を必要とせずに、多様なカメラ視点と季節変化を一貫したローカライゼーションを可能にする。
季節および斜角の航空データセット上でのVISTAの評価を行い,ベースライン法よりも最大69%改善した。
さらに,メモリ保存ベースラインの0.6%の大きさしか持たないコンパクトなオブジェクトベースマップも維持し,資源制約のあるプラットフォーム上でリアルタイムに実装することを可能にする。
関連論文リスト
- Glance-MCMT: A General MCMT Framework with Glance Initialization and Progressive Association [0.0]
ビュー間の一貫したグローバルなアイデンティティ割り当てを保証するマルチカメラマルチターゲット(MCMT)トラッキングフレームワークを提案する。
パイプラインは、BoT-SORTベースのシングルカメラ追跡から始まり、その後、グローバルIDを初期化するための一見のフェーズが続く。
新しいグローバルIDは、十分に類似した軌道や特徴一致が見つからない場合にのみ導入される。
論文 参考訳(メタデータ) (2025-07-14T09:57:53Z) - Environmental Change Detection: Toward a Practical Task of Scene Change Detection [23.79599379113436]
本研究では,空間環境を協調的に理解し,変化を検出する新しい枠組みを提案する。
我々は、複数の参照候補を活用し、変更検出のために意味的にリッチな表現を集約することで、この制限に対処する。
ECDのために再構成された3つの標準ベンチマークセットに対して,本フレームワークの評価を行い,最先端手法の簡単な組み合わせを著しく上回った。
論文 参考訳(メタデータ) (2025-06-13T06:09:43Z) - Hierarchical Image Matching for UAV Absolute Visual Localization via Semantic and Structural Constraints [10.639191465547517]
無人航空機(UAV)には絶対的な位置決めが不可欠であるが、グローバルナビゲーション衛星システム(GNSS)信号が利用できない場合には困難である。
視線に基づく絶対的位置決め手法は、UAVの現在の視界を基準衛星マップで推定し、その位置を推定する手法として人気を博している。
既存の手法は主に従来の画像マッチングと低レベルの画像マッチングに依存しており、ソース間の相違や時間的変動による大きな違いによって困難に悩まされている。
セマンティック・アウェアと統合したUAV絶対位置推定のための階層的クロスソース画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T13:53:03Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Adaptive Affinity for Associations in Multi-Target Multi-Camera Tracking [53.668757725179056]
本稿では,MTMCTにおけるアフィニティ推定を対応する対応範囲に適応させるための,単純かつ効果的な手法を提案する。
すべての外見の変化に対処する代わりに、データアソシエーション中に出現する可能性のあるものに特化したアフィニティメトリックを調整します。
ミスマッチを最小限に抑えるため、アダプティブアフィニティモジュールはグローバルなre-ID距離を大幅に改善する。
論文 参考訳(メタデータ) (2021-12-14T18:59:11Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。