論文の概要: MAG-VLAQ: Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition
- arxiv url: http://arxiv.org/abs/2605.09418v1
- Date: Sun, 10 May 2026 08:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.238635
- Title: MAG-VLAQ: Multi-modal Aerial-Ground Query Aggregation for Cross-View Place Recognition
- Title(参考訳): MAG-VLAQ:クロスビュー位置認識のためのマルチモーダルAerial-Ground Query Aggregation
- Authors: Zhengyi Xu, Yuhang Ming, Zhihao Zhan, Hanyu Zhu, Javier Civera, Wanzeng Kong,
- Abstract要約: マルチモーダル空中位置認識のための基礎モデル強化クエリアグリゲーションフレームワークMAG-VLAQを提案する。
具体的には、事前学習した基礎モデルを用いて、地上画像と空中画像の両方から濃密な視覚トークンを抽出する。
我々の主な貢献として,ニューラル常微分方程式(ODE)に基づくRGB-LiDAR融合と局所集約クエリ(VLAQ)のベクトルを密結合したODE条件付きVLAQを提案する。
- 参考スコア(独自算出の注目度): 18.214093055525016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal cross-view place recognition remains a fundamental challenge in computer vision and robotics due to the severe viewpoint, modality, and spatial-structure discrepancies between ground observations and aerial references. To address this challenge, we present MAG-VLAQ, a foundation-model-enhanced query aggregation framework for multi-modal aerial-ground cross-view place recognition. Specifically, our approach leverages pre-trained foundation models to extract dense visual tokens from both ground and aerial images, as well as expressive geometric tokens from ground LiDAR observations. These heterogeneous tokens are then projected into a shared embedding space for cross-modal alignment and fusion. As our main contribution, we propose ODE-conditioned VLAQ, which tightly couples neural ordinary differential equations (ODE)-based RGB-LiDAR fusion with vectors of locally aggregated queries (VLAQ). In this design, the VLAQ query centers are dynamically adapted according to the fused multi-modal state. This mechanism allows the final global descriptor to preserve globally learned retrieval prototypes while remaining responsive to scene-specific visual and geometric evidence, significantly improving aerial-ground matching. Extensive experiments on KITTI360-AG and nuScenes-AG validate the effectiveness of our proposed MAG-VLAQ. Notably, on KITTI360-AG, our MAG-VLAQ nearly doubles the state-of-the-art performance, achieving 61.1 Recall@1 in the satellite setting, compared with 34.5 from the closest competing approach.
- Abstract(参考訳): マルチモーダル・クロスビュー・プレイス認識は、地上観測と航空基準との間の厳しい視点、モダリティ、空間構造の違いから、コンピュータビジョンとロボティクスの基本的な課題である。
この課題に対処するため,マルチモーダルな地上対地位置認識のための基礎モデル強化クエリアグリゲーションフレームワークMAG-VLAQを提案する。
具体的には,地上および地上画像から高密度な視覚トークンを抽出するために,事前学習した基礎モデルを活用するとともに,地上のLiDAR観測から表現的幾何学トークンを抽出する。
これらの異質なトークンは、クロスモーダルアライメントと融合のために共有埋め込み空間に投影される。
本研究の主な貢献として,ニューラル常微分方程式(ODE)に基づくRGB-LiDAR融合と局所集約クエリ(VLAQ)のベクトルを密結合したODE条件付きVLAQを提案する。
この設計では、VLAQクエリセンターは、融合したマルチモーダル状態に応じて動的に適応する。
このメカニズムにより、最終的なグローバルな記述者は、シーン固有の視覚的および幾何学的証拠に反応しながら、グローバルに学習された検索プロトタイプを保存でき、地上でのマッチングを大幅に改善することができる。
KITTI360-AGとnuScenes-AGの広範囲な実験により,提案したMAG-VLAQの有効性が検証された。
特に、KITTI360-AGでは、MAG-VLAQが最先端のパフォーマンスをほぼ倍にし、衛星設定で61.1 Recall@1を達成した。
関連論文リスト
- UAVReason: A Unified, Large-Scale Benchmark for Multimodal Aerial Scene Reasoning and Generation [22.090256033688124]
UAVReasonは,Nadir-view UAVシナリオ専用の,最初の大規模マルチモーダルベンチマークである。
273K以上のVQA(Visual Question Answering)ペアを統合し、詳細なキャプションを持つ23.6Kのシングルフレーム、68.2Kの2フレームの時間シーケンス、および188.8Kのクロスモーダル生成サンプルを含む。
ベンチマークでは、空間的および時間的軸にわたる22種類の推論タイプを調査し、同時にRGB、深さ、セグメンテーションのモダリティにわたる高忠実度生成を評価した。
論文 参考訳(メタデータ) (2026-04-07T03:23:30Z) - VFM-Loc: Zero-Shot Cross-View Geo-Localization via Aligning Discriminative Visual Hierarchies [5.868908918033978]
リモートセンシングにおけるCross-View Geo-Localization (CVGL) は、ジオタグ付き衛星画像とマッチングすることで、ドローンビュークエリを見つけることを目的としている。
視覚基礎モデル(VFM)から一般化可能な視覚表現を利用するゼロショットCVGLのためのトレーニングフリーフレームワークであるVFM-Locを提案する。
実験により、VFM-Locは標準ベンチマークで強いゼロショット精度を示し、大きな斜角角を持つ挑戦的なLO-UCVデータセット上で、Recall@1で教師付きメソッドを20%以上超えることが示されている。
論文 参考訳(メタデータ) (2026-03-14T09:23:59Z) - Modeling Cross-vision Synergy for Unified Large Vision Model [130.37489011094036]
PolyVは、アーキテクチャレベルとトレーニングレベルの両方で、クロスビジョンのシナジーを実現する統一された大型ビジョンモデルである。
PolyVは既存のモデルを一貫して上回り、バックボーンの10%以上の平均的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T22:44:43Z) - DC-VLAQ: Query-Residual Aggregation for Robust Visual Place Recognition [22.709465759219327]
本稿では,相補的VFMとロバストなグローバルアグリゲーションを融合した表現中心のフレームワークであるDC-VLAQを提案する。
我々は,DC-VLAQが強いベースラインを一貫して上回り,最先端の性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-19T05:19:56Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Reconstruction as a Bridge for Event-Based Visual Question Answering [50.47820990163094]
本稿では,簡単なフレームベース再構成・トークン化(FRT)法と適応再構成・トークン化(ART)法を提案する。
堅牢な評価のために、22の公開データセットから1000のイベント-Q&Aペアからなる、イベントベースのMLLMの最初の目的、実世界のベンチマークであるEvQAを紹介する。
提案手法は,EvQA上での最先端性能を実証し,イベントベースビジョンにおけるMLLMの意義を明らかにする。
論文 参考訳(メタデータ) (2025-12-12T12:16:45Z) - Omnidirectional Spatial Modeling from Correlated Panoramas [4.75637997496421]
既存の全方位法は、フレーム間の相関したパノラマを無視しながら、単一のフレーム内でシーン理解を実現する。
textbfCFpanoは、フレーム間の相関したパノラマの視覚的質問応答に特化した、textbf Firstベンチマークデータセットである。
本稿では,マルチモーダル大言語モデル (MLLM) とグループ相対政策最適化 (GRPO) を微調整したメソッド名と,クロスフレーム相関パノラマを用いた頑健で一貫した推論のための一組の報酬関数を提案する。
論文 参考訳(メタデータ) (2025-09-02T10:14:55Z) - Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method [8.039453341761538]
我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:55:26Z) - Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent [46.86939432189035]
階層的特徴Descentを用いたアンカーベースマルチビューサブスペースクラスタリングを提案する。
提案手法は最先端技術より一貫して優れている。
論文 参考訳(メタデータ) (2023-10-11T03:29:13Z) - Deep Diversity-Enhanced Feature Representation of Hyperspectral Images [87.47202258194719]
トポロジを改良して3次元畳み込みを補正し,上行階の高次化を図る。
また、要素間の独立性を最大化するために特徴マップに作用する新しい多様性対応正規化(DA-Reg)項を提案する。
提案したRe$3$-ConvSetとDA-Regの優位性を実証するために,様々なHS画像処理および解析タスクに適用する。
論文 参考訳(メタデータ) (2023-01-15T16:19:18Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。