論文の概要: Improving Cross-view Object Geo-localization: A Dual Attention Approach with Cross-view Interaction and Multi-Scale Spatial Features
- arxiv url: http://arxiv.org/abs/2510.27139v1
- Date: Fri, 31 Oct 2025 03:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.964956
- Title: Improving Cross-view Object Geo-localization: A Dual Attention Approach with Cross-view Interaction and Multi-Scale Spatial Features
- Title(参考訳): クロスビューオブジェクトのジオローカライゼーションの改善: クロスビューインタラクションとマルチスケール空間的特徴を用いたデュアルアテンションアプローチ
- Authors: Xingtao Ling Yingying Zhu,
- Abstract要約: クロスビューオブジェクトのジオローカライゼーションは、最近、潜在的な応用により注目されている。
CVCAM(Cross-view and Cross-attention Module)を導入する。
また、"Ground-to-Drone"ローカライゼーションタスクのためのG2Dと呼ばれる新しいデータセットも作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view object geo-localization has recently gained attention due to potential applications. Existing methods aim to capture spatial dependencies of query objects between different views through attention mechanisms to obtain spatial relationship feature maps, which are then used to predict object locations. Although promising, these approaches fail to effectively transfer information between views and do not further refine the spatial relationship feature maps. This results in the model erroneously focusing on irrelevant edge noise, thereby affecting localization performance. To address these limitations, we introduce a Cross-view and Cross-attention Module (CVCAM), which performs multiple iterations of interaction between the two views, enabling continuous exchange and learning of contextual information about the query object from both perspectives. This facilitates a deeper understanding of cross-view relationships while suppressing the edge noise unrelated to the query object. Furthermore, we integrate a Multi-head Spatial Attention Module (MHSAM), which employs convolutional kernels of various sizes to extract multi-scale spatial features from the feature maps containing implicit correspondences, further enhancing the feature representation of the query object. Additionally, given the scarcity of datasets for cross-view object geo-localization, we created a new dataset called G2D for the "Ground-to-Drone" localization task, enriching existing datasets and filling the gap in "Ground-to-Drone" localization task. Extensive experiments on the CVOGL and G2D datasets demonstrate that our proposed method achieves high localization accuracy, surpassing the current state-of-the-art.
- Abstract(参考訳): クロスビューオブジェクトのジオローカライゼーションは、最近、潜在的な応用により注目されている。
既存の手法は、異なるビュー間のクエリオブジェクトの空間的依存関係をアテンション機構によって捕捉し、オブジェクトの位置を予測する空間的関係特徴写像を得る。
将来性はあるものの、これらの手法はビュー間で情報を効果的に伝達することができず、空間関係特徴写像をさらに洗練しない。
その結果、モデルが不適切なエッジノイズに誤って焦点を合わせ、ローカライゼーション性能に影響を及ぼす。
これらの制限に対処するために、クロスビューとクロスアテンションモジュール(CVCAM)を導入し、このモジュールは2つのビュー間の相互作用を複数回繰り返して実行し、両方の視点からクエリオブジェクトに関するコンテキスト情報の継続的な交換と学習を可能にします。
これにより、クエリオブジェクトとは無関係なエッジノイズを抑えながら、クロスビューの関係をより深く理解することが可能になる。
さらに,複数サイズの畳み込みカーネルを用いて,暗黙の対応を含む特徴マップから多次元空間特徴を抽出し,クエリオブジェクトの特徴表現をさらに強化するマルチヘッド空間アテンションモジュール (MHSAM) を統合する。
さらに、クロスビューオブジェクトのジオローカライゼーションのためのデータセットが不足していることを踏まえ、我々は"Ground-to-Drone"ローカライゼーションタスクのためのG2Dと呼ばれる新しいデータセットを作成し、既存のデータセットを強化し、"Ground-to-Drone"ローカライゼーションタスクのギャップを埋めました。
CVOGL と G2D データセットの大規模な実験により,提案手法が最先端の局所化精度を達成し,現状を超越した結果が得られた。
関連論文リスト
- Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - Recurrent Cross-View Object Geo-Localization [23.685973292321574]
クロスビューオブジェクトジオローカライゼーション (CVOGL) は、問合せ画像と点プロンプトが与えられた場合の高解像度衛星画像における特定のオブジェクトの位置を決定することを目的としている。
本稿では,CVOGLをリカレント・ローカライゼーションタスクとして再構成したリカレント・クロスビュー・オブジェクトのジオローカライゼーション・トランスフォーマであるReCOTを提案する。
ReCOTは、クエリイメージからタスク固有の意図をエンコードし、埋め込みを促す一連の学習可能なトークンを導入し、予測された位置を洗練するための参照機能に反復的に参加する。
論文 参考訳(メタデータ) (2025-09-16T07:18:23Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - Addressing Multiple Salient Object Detection via Dual-Space Long-Range
Dependencies [3.8824028205733017]
正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。
空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。
複雑なシナリオであっても,本手法は複数の有能な領域を正確に特定できることを示す。
論文 参考訳(メタデータ) (2021-11-04T23:16:53Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。