論文の概要: Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization
- arxiv url: http://arxiv.org/abs/2510.20247v1
- Date: Thu, 23 Oct 2025 06:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.444562
- Title: Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization
- Title(参考訳): 見えないものを見る: マスク駆動位置変換とストリップ畳み込みコンテキストモデリングによるクロスビューオブジェクトのジオローカライゼーション
- Authors: Shuhan Hu, Yiru Li, Yuanyuan Li, Yingying Zhu,
- Abstract要約: クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
- 参考スコア(独自算出の注目度): 8.559240391514063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view object geo-localization enables high-precision object localization through cross-view matching, with critical applications in autonomous driving, urban management, and disaster response. However, existing methods rely on keypoint-based positional encoding, which captures only 2D coordinates while neglecting object shape information, resulting in sensitivity to annotation shifts and limited cross-view matching capability. To address these limitations, we propose a mask-based positional encoding scheme that leverages segmentation masks to capture both spatial coordinates and object silhouettes, thereby upgrading the model from "location-aware" to "object-aware." Furthermore, to tackle the challenge of large-span objects (e.g., elongated buildings) in satellite imagery, we design a context enhancement module. This module employs horizontal and vertical strip convolutional kernels to extract long-range contextual features, enhancing feature discrimination among strip-like objects. Integrating MPE and CEM, we present EDGeo, an end-to-end framework for robust cross-view object geo-localization. Extensive experiments on two public datasets (CVOGL and VIGOR-Building) demonstrate that our method achieves state-of-the-art performance, with a 3.39% improvement in localization accuracy under challenging ground-to-satellite scenarios. This work provides a robust positional encoding paradigm and a contextual modeling framework for advancing cross-view geo-localization research.
- Abstract(参考訳): クロスビューオブジェクトのジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトのローカライゼーションを可能にする。
しかし、既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャし、アノテーションシフトに敏感になり、クロスビューマッチング能力が制限される。
これらの制約に対処するために,空間座標とオブジェクトシルエットの両方を捕捉するためにセグメンテーションマスクを利用するマスクベースの位置符号化方式を提案する。
さらに,衛星画像における大規模オブジェクト(例えば細長い建物)の課題に対処するために,コンテキスト拡張モジュールを設計する。
このモジュールは水平および垂直のストリップ畳み込みカーネルを用いて長距離コンテキストの特徴を抽出し、ストリップのようなオブジェクト間の特徴識別を強化する。
MPEとCEMを統合したEDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
2つの公開データセット(CVOGLとVIGOR-Building)の大規模な実験により,本手法が最先端の性能を実現し,3.39%のローカライゼーション精度が向上した。
この研究は、位置符号化パラダイムと、クロスビューなジオローカライゼーション研究を進めるためのコンテキストモデリングフレームワークを提供する。
関連論文リスト
- Anchor-free Cross-view Object Geo-localization with Gaussian Position Encoding and Cross-view Association [3.5982006325887554]
AFGeo と呼ばれるクロスビューオブジェクトのジオローカライゼーションのためのアンカーフリーな定式化を提案する。
AFGeoは、事前に定義されたアンカーを使わずにオブジェクトをローカライズする各ピクセルに対して、4つの方向のオフセットをグラウンドトルースボックスに直接予測する。
我々のモデルは軽量かつ効率的であり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T00:30:45Z) - Object-level Cross-view Geo-localization with Location Enhancement and Multi-Head Cross Attention [17.777115738099916]
クロスビュージオローカライゼーションは、ドローンや地上カメラが捉えたクエリ画像の位置を、ジオリファレンス衛星画像とマッチングすることによって決定する。
これらの課題に対処するために,オブジェクトレベルのクロスビュージオローカライズネットワーク(OCGNet)を提案する。
OCGNetは、パブリックデータセットであるCVOGLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-23T13:55:56Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5461938536945723]
リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。
提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。
我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文 参考訳(メタデータ) (2025-03-11T11:01:18Z) - Imagining the Unseen: Generative Location Modeling for Object Placement [49.71690795831461]
対象物に対する可塑性境界ボックスの予測を学習する生成的位置モデルを開発する。
我々のアプローチはまずイメージとターゲットオブジェクトクラスをトークン化し、次に自動回帰変換器を通して境界ボックス座標をデコードする。
実験により,OPAデータセットの配置精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。