論文の概要: Anchor-free Cross-view Object Geo-localization with Gaussian Position Encoding and Cross-view Association
- arxiv url: http://arxiv.org/abs/2509.25623v1
- Date: Tue, 30 Sep 2025 00:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.970314
- Title: Anchor-free Cross-view Object Geo-localization with Gaussian Position Encoding and Cross-view Association
- Title(参考訳): ガウス位置エンコーディングとクロスビューアソシエーションによるアンカーフリー・クロスビューオブジェクトのジオローカライゼーション
- Authors: Xingtao Ling, Chenlin Fu, Yingying Zhu,
- Abstract要約: AFGeo と呼ばれるクロスビューオブジェクトのジオローカライゼーションのためのアンカーフリーな定式化を提案する。
AFGeoは、事前に定義されたアンカーを使わずにオブジェクトをローカライズする各ピクセルに対して、4つの方向のオフセットをグラウンドトルースボックスに直接予測する。
我々のモデルは軽量かつ効率的であり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 3.5982006325887554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing cross-view object geo-localization approaches adopt anchor-based paradigm. Although effective, such methods are inherently constrained by predefined anchors. To eliminate this dependency, we first propose an anchor-free formulation for cross-view object geo-localization, termed AFGeo. AFGeo directly predicts the four directional offsets (left, right, top, bottom) to the ground-truth box for each pixel, thereby localizing the object without any predefined anchors. To obtain a more robust spatial prior, AFGeo incorporates Gaussian Position Encoding (GPE) to model the click point in the query image, mitigating the uncertainty of object position that challenges object localization in cross-view scenarios. In addition, AFGeo incorporates a Cross-view Object Association Module (CVOAM) that relates the same object and its surrounding context across viewpoints, enabling reliable localization under large cross-view appearance gaps. By adopting an anchor-free localization paradigm that integrates GPE and CVOAM with minimal parameter overhead, our model is both lightweight and computationally efficient, achieving state-of-the-art performance on benchmark datasets.
- Abstract(参考訳): 既存のクロスビューオブジェクトのジオローカライズアプローチでは、アンカーベースのパラダイムが採用されている。
有効ではあるが、そのような手法は本質的に予め定義されたアンカーによって制約される。
この依存関係を排除するために、まず、AFGeoと呼ばれるクロスビューオブジェクトのジオローカライゼーションのためのアンカーフリーな定式化を提案する。
AFGeoは、各ピクセルの4つの方向オフセット(左、右、上、下)を直接グラウンドトラスボックスに予測し、事前定義されたアンカーなしでオブジェクトをローカライズする。
より堅牢な空間的先行性を得るために、AFGeoはガウス位置符号化(GPE)を導入し、クエリ画像のクリックポイントをモデル化し、クロスビューシナリオにおけるオブジェクトローカライゼーションに挑戦するオブジェクト位置の不確実性を緩和する。
さらに、AFGeoには、同じオブジェクトとその周囲のコンテキストを視点で関連付けるクロスビューオブジェクトアソシエーションモジュール(CVOAM)が組み込まれており、大きなクロスビューの外観ギャップの下で信頼性の高いローカライゼーションを可能にする。
GPEとCVOAMを最小のパラメータオーバーヘッドで統合するアンカーフリーなローカライゼーションパラダイムを採用することで、我々のモデルは軽量かつ計算的に効率的であり、ベンチマークデータセット上で最先端のパフォーマンスを達成することができる。
関連論文リスト
- Recurrent Cross-View Object Geo-Localization [23.685973292321574]
クロスビューオブジェクトジオローカライゼーション (CVOGL) は、問合せ画像と点プロンプトが与えられた場合の高解像度衛星画像における特定のオブジェクトの位置を決定することを目的としている。
本稿では,CVOGLをリカレント・ローカライゼーションタスクとして再構成したリカレント・クロスビュー・オブジェクトのジオローカライゼーション・トランスフォーマであるReCOTを提案する。
ReCOTは、クエリイメージからタスク固有の意図をエンコードし、埋め込みを促す一連の学習可能なトークンを導入し、予測された位置を洗練するための参照機能に反復的に参加する。
論文 参考訳(メタデータ) (2025-09-16T07:18:23Z) - Object-level Cross-view Geo-localization with Location Enhancement and Multi-Head Cross Attention [17.777115738099916]
クロスビュージオローカライゼーションは、ドローンや地上カメラが捉えたクエリ画像の位置を、ジオリファレンス衛星画像とマッチングすることによって決定する。
これらの課題に対処するために,オブジェクトレベルのクロスビュージオローカライズネットワーク(OCGNet)を提案する。
OCGNetは、パブリックデータセットであるCVOGLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-23T13:55:56Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Simple, Effective and General: A New Backbone for Cross-view Image
Geo-localization [9.687328460113832]
我々は、シンプルな注意に基づく画像ジオローカライゼーションネットワーク(SAIG)という新しいバックボーンネットワークを提案する。
提案したSAIGは、パッチ間の長距離相互作用と、マルチヘッド・セルフアテンション・レイヤとのクロスビュー対応を効果的に表現する。
我々のSAIGは、従来よりもはるかにシンプルでありながら、クロスビューなジオローカライゼーションにおける最先端の成果を達成している。
論文 参考訳(メタデータ) (2023-02-03T06:50:51Z) - LocPoseNet: Robust Location Prior for Unseen Object Pose Estimation [69.70498875887611]
LocPoseNetは、見えないオブジェクトに先立って、ロバストにロケーションを学習することができる。
提案手法は,LINEMOD と GenMOP において,既存の作業よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-29T15:21:34Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。