論文の概要: Recurrent Cross-View Object Geo-Localization
- arxiv url: http://arxiv.org/abs/2509.12757v1
- Date: Tue, 16 Sep 2025 07:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.941038
- Title: Recurrent Cross-View Object Geo-Localization
- Title(参考訳): Recurrent Cross-View Object Geo-Localization
- Authors: Xiaohan Zhang, Si-Yuan Cao, Xiaokai Bai, Yiming Li, Zhangkai Shen, Zhe Wu, Xiaoxi Hu, Hui-liang Shen,
- Abstract要約: クロスビューオブジェクトジオローカライゼーション (CVOGL) は、問合せ画像と点プロンプトが与えられた場合の高解像度衛星画像における特定のオブジェクトの位置を決定することを目的としている。
本稿では,CVOGLをリカレント・ローカライゼーションタスクとして再構成したリカレント・クロスビュー・オブジェクトのジオローカライゼーション・トランスフォーマであるReCOTを提案する。
ReCOTは、クエリイメージからタスク固有の意図をエンコードし、埋め込みを促す一連の学習可能なトークンを導入し、予測された位置を洗練するための参照機能に反復的に参加する。
- 参考スコア(独自算出の注目度): 23.685973292321574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view object geo-localization (CVOGL) aims to determine the location of a specific object in high-resolution satellite imagery given a query image with a point prompt. Existing approaches treat CVOGL as a one-shot detection task, directly regressing object locations from cross-view information aggregation, but they are vulnerable to feature noise and lack mechanisms for error correction. In this paper, we propose ReCOT, a Recurrent Cross-view Object geo-localization Transformer, which reformulates CVOGL as a recurrent localization task. ReCOT introduces a set of learnable tokens that encode task-specific intent from the query image and prompt embeddings, and iteratively attend to the reference features to refine the predicted location. To enhance this recurrent process, we incorporate two complementary modules: (1) a SAM-based knowledge distillation strategy that transfers segmentation priors from the Segment Anything Model (SAM) to provide clearer semantic guidance without additional inference cost, and (2) a Reference Feature Enhancement Module (RFEM) that introduces a hierarchical attention to emphasize object-relevant regions in the reference features. Extensive experiments on standard CVOGL benchmarks demonstrate that ReCOT achieves state-of-the-art (SOTA) performance while reducing parameters by 60% compared to previous SOTA approaches.
- Abstract(参考訳): クロスビューオブジェクトジオローカライゼーション (CVOGL) は、問合せ画像と点プロンプトが与えられた場合の高解像度衛星画像における特定のオブジェクトの位置を決定することを目的としている。
既存のアプローチでは、CVOGLをワンショット検出タスクとして扱い、クロスビュー情報アグリゲーションから直接オブジェクト位置を回帰するが、特徴雑音やエラー訂正機構の欠如に弱い。
本稿では,CVOGLをリカレント・ローカライゼーションタスクとして再構成したリカレント・クロスビュー・オブジェクトのジオローカライゼーション・トランスフォーマであるReCOTを提案する。
ReCOTは、クエリイメージからタスク固有の意図をエンコードし、埋め込みを促す一連の学習可能なトークンを導入し、予測された位置を洗練するための参照機能に反復的に参加する。
この再帰的プロセスを強化するために,(1)セグメンテーション先行をSegment Anything Model(SAM)から転送し,追加の推論コストを伴わずにより明確なセグメンテーションガイダンスを提供するSAMベースの知識蒸留戦略,(2)参照特徴量強調モジュール(RFEM)の2つの相補的モジュールを組み込んだ。
標準CVOGLベンチマークの大規模な実験により、ReCOTは従来のSOTAアプローチと比較してパラメータを60%削減し、最先端(SOTA)性能を達成することが示された。
関連論文リスト
- Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Decoupled DETR: Spatially Disentangling Localization and Classification
for Improved End-to-End Object Detection [48.429555904690595]
本稿では,タスク認識型問合せ生成モジュールと切り離された特徴学習プロセスを含む空間的に分離されたDETRを紹介する。
提案手法は,従来の研究に比べてMSCOCOデータセットの大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2023-10-24T15:54:11Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Retrieval and Localization with Observation Constraints [12.010135672015704]
RLOCSと呼ばれる視覚的再局在化手法を提案する。
画像検索、意味整合性、幾何学的検証を組み合わせて正確な推定を行う。
本手法は, ローカライゼーションベンチマークにおいて多くの性能向上を実現している。
論文 参考訳(メタデータ) (2021-08-19T06:14:33Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。