論文の概要: SMGeo: Cross-View Object Geo-Localization with Grid-Level Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2511.14093v1
- Date: Tue, 18 Nov 2025 03:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.905872
- Title: SMGeo: Cross-View Object Geo-Localization with Grid-Level Mixture-of-Experts
- Title(参考訳): SMGeo:Grid-Level Mixture-of-Expertsを使ったクロスビューオブジェクトジオローカライゼーション
- Authors: Fan Zhang, Haoyuan Ren, Fei Ma, Qiang Yin, Yongsheng Zhou,
- Abstract要約: クロスビューオブジェクト ジオローカライゼーションは、ドローン画像に基づいて、大規模な衛星画像間で同じ物体を正確に特定することを目的としている。
SMGeoは、オブジェクトジオローカライゼーションのための、高速でエンドツーエンドなトランスフォーマベースモデルである。
- 参考スコア(独自算出の注目度): 4.521626189942935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-view object Geo-localization aims to precisely pinpoint the same object across large-scale satellite imagery based on drone images. Due to significant differences in viewpoint and scale, coupled with complex background interference, traditional multi-stage "retrieval-matching" pipelines are prone to cumulative errors. To address this, we present SMGeo, a promptable end-to-end transformer-based model for object Geo-localization. This model supports click prompting and can output object Geo-localization in real time when prompted to allow for interactive use. The model employs a fully transformer-based architecture, utilizing a Swin-Transformer for joint feature encoding of both drone and satellite imagery and an anchor-free transformer detection head for coordinate regression. In order to better capture both inter-modal and intra-view dependencies, we introduce a grid-level sparse Mixture-of-Experts (GMoE) into the cross-view encoder, allowing it to adaptively activate specialized experts according to the content, scale and source of each grid. We also employ an anchor-free detection head for coordinate regression, directly predicting object locations via heat-map supervision in the reference images. This approach avoids scale bias and matching complexity introduced by predefined anchor boxes. On the drone-to-satellite task, SMGeo achieves leading performance in accuracy at IoU=0.25 and mIoU metrics (e.g., 87.51%, 62.50%, and 61.45% in the test set, respectively), significantly outperforming representative methods such as DetGeo (61.97%, 57.66%, and 54.05%, respectively). Ablation studies demonstrate complementary gains from shared encoding, query-guided fusion, and grid-level sparse mixture-of-experts.
- Abstract(参考訳): クロスビューオブジェクト ジオローカライゼーションは、ドローン画像に基づいて、大規模な衛星画像間で同じ物体を正確に特定することを目的としている。
ビューポイントとスケールに大きな違いがあり、複雑なバックグラウンド干渉と相まって、従来のマルチステージの"検索マッチング"パイプラインは累積エラーを起こしやすい。
そこで本論文では,オブジェクトジオローカライゼーションのための高速なエンドツーエンドトランスフォーマーモデルであるSMGeoを提案する。
このモデルは、クリックプロンプトをサポートし、インタラクティブな使用を可能にするために、オブジェクトのジオローカライゼーションをリアルタイムで出力することができる。
このモデルは完全なトランスフォーマーベースのアーキテクチャを採用しており、ドローンと衛星画像の同時符号化にSwin-Transformerと、座標回帰のためのアンカーフリートランスフォーマー検出ヘッドを使用している。
モード間およびビュー内依存関係の両方をよりよく捉えるため、グリッドレベルのスパース・オブ・エクササイズ(GMoE)をクロスビューエンコーダに導入し、各グリッドの内容、スケール、ソースに応じて専門専門家を適応的に活性化する。
また、アンカーフリー検出ヘッドを用いて座標回帰を行い、参照画像のヒートマップによる物体位置の直接予測を行う。
このアプローチは、事前に定義されたアンカーボックスによって導入されたスケールバイアスとマッチングの複雑さを回避する。
ドローンと衛星のタスクでは、SMGeoはIoU=0.25とmIoUメトリクス(それぞれ87.51%、62.50%、および61.45%)の精度で、DetGeo(61.97%、57.66%、54.05%)のような代表的手法よりも大幅に優れている。
アブレーション研究は、共有エンコーディング、クエリ誘導融合、グリッドレベルのスパース・オブ・エキスパートの相補的な利得を示す。
関連論文リスト
- Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - Anchor-free Cross-view Object Geo-localization with Gaussian Position Encoding and Cross-view Association [3.5982006325887554]
AFGeo と呼ばれるクロスビューオブジェクトのジオローカライゼーションのためのアンカーフリーな定式化を提案する。
AFGeoは、事前に定義されたアンカーを使わずにオブジェクトをローカライズする各ピクセルに対して、4つの方向のオフセットをグラウンドトルースボックスに直接予測する。
我々のモデルは軽量かつ効率的であり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T00:30:45Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement [20.346145927174373]
Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。
既存の手法は、トレーニングデータとテストデータが完全に異なる領域から取得されるクロスエリア評価において、依然としてパフォーマンスの低下に悩まされている。
視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
本研究では,視覚的特徴間の相関をモデル化する拡張GLEモジュールを用いたGeoDTR+を提案する。
論文 参考訳(メタデータ) (2023-08-18T15:32:01Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。