論文の概要: GeoMamba: A Geometry-driven MambaVision Framework and Dataset for Fine-grained Optical-SAR Object Retrieval
- arxiv url: http://arxiv.org/abs/2605.19734v1
- Date: Tue, 19 May 2026 12:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.316079
- Title: GeoMamba: A Geometry-driven MambaVision Framework and Dataset for Fine-grained Optical-SAR Object Retrieval
- Title(参考訳): GeoMamba: 精密光学SARオブジェクト検索のための幾何学駆動型MambaVisionフレームワークとデータセット
- Authors: Tiantong Fang, Xiuwei Wang, Jing Xiao, Wujie Zhou, Liang Liao, Mi Wang,
- Abstract要約: GeoMambaは光学SAR微細検索のための幾何学駆動フレームワークである。
GFIモジュールは、クロスモーダルな機能相互作用を強化し、構造的な事前を組み込む。
GeoMambaは既存の手法を上回り、全検索環境で63.3% mAPと77.0% Rank-1の精度を達成した。
- 参考スコア(独自算出の注目度): 54.741349848771144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-source remote sensing enables complementary observation of ground objects, while cross-modal fine-grained object retrieval remains challenging, especially under unaligned optical and SAR conditions. Unlike conventional retrieval settings that rely on paired or spatially aligned samples, practical optical-SAR retrieval is affected by substantial modality discrepancy, speckle noise, and structural inconsistency, which limit robust cross-modal representation learning. To address this problem, we propose GeoMamba, a geometry-driven framework tailored for optical-SAR fine-grained retrieval. Specifically, GeoMamba introduces a Geometric Feature Injection (GFI) module that enhances cross-modal feature interaction and incorporates structural priors, thereby improving the robustness of SAR representations and promoting geometry-consistent feature learning. In addition, a Geometric Consistency Constraint (GCC) module, together with a Deep Supervision (DS) strategy, imposes hierarchical geometric constraints using classical operators, which helps preserve informative object structures during representation learning. We further construct a new dataset, FGOS-as, containing 11 aerospace and maritime categories for evaluating unaligned cross-modal fine-grained object retrieval in realistic remote sensing scenarios. Extensive experiments on FGOS-as demonstrate that GeoMamba outperforms existing methods, achieving 63.3% mAP and 77.0% Rank-1 accuracy in all-to-all retrieval setting.
- Abstract(参考訳): マルチソースリモートセンシングは、特に非整合光学およびSAR条件下では、クロスモーダルな細粒度物体の検索が困難であるのに対して、地上物体の相補的な観測を可能にする。
対あるいは空間的に整列したサンプルに依存する従来の検索設定とは異なり、実用的な光学SAR検索は、頑健なクロスモーダル表現学習を制限する、相当なモダリティの相違、スペックルノイズ、構造的不整合の影響を受けている。
この問題に対処するために,光学SARの微粒化検索に適した幾何駆動型フレームワークであるGeoMambaを提案する。
具体的には、GeoMambaは、幾何的特徴注入(GFI)モジュールを導入し、クロスモーダルな特徴相互作用を強化し、構造的先行性を導入し、SAR表現の堅牢性を改善し、幾何一貫性のある特徴学習を促進する。
さらに、GCCモジュールは、Deep Supervision(DS)戦略とともに、古典演算子を用いて階層的な幾何学的制約を課し、表現学習中の情報的対象構造を保護する。
さらに,11の空域と海洋カテゴリーを含むFGOS-asという新たなデータセットを構築し,現実的なリモートセンシングシナリオにおいて,不整合のクロスモーダル微粒なオブジェクト検索を評価する。
FGOS-asに関する大規模な実験により、GeoMambaは既存の手法よりも優れており、全検索環境で63.3%のmAPと77.0%のRan-1精度を達成した。
関連論文リスト
- SEMASIA: A Large-Scale Dataset of Semantically Structured Latent Representations [12.185380843937196]
約1,700個の事前学習された視覚モデルから抽出した潜在表現の大規模コレクションであるSEMASIAを紹介する。
個々の潜在空間の概念的構造を解析し、一貫したプロトタイプのようなクラスタリングを示す。
プレトレーニングデータの複雑性,特殊化,伝達学習,拡張,モデルスケールが,埋め込みの幾何学的および探索的特性とどのように関係しているかを,大規模回帰分析により解析する。
論文 参考訳(メタデータ) (2026-05-10T11:42:36Z) - 3dSAGER: Geospatial Entity Resolution over 3D Objects (Technical Report) [7.378893412842889]
3dSAGERは3Dオブジェクト上の空間的エンティティ解決のためのエンドツーエンドパイプラインである。
本稿では,マッチングペアの複雑な幾何学的特徴をキャプチャする,空間参照非依存のデファクトチュール化機構を提案する。
また、訓練されたモデルを活用して、ハイリコール候補セットを効率的に生成する、軽量で解釈可能な新しいブロッキング手法であるBKAFIを提案する。
論文 参考訳(メタデータ) (2025-11-09T09:35:45Z) - Physics-Informed Neural Networks for MIMO Beam Map and Environment Reconstruction [67.65578956523403]
ネットワークインテリジェンスを用いて物理層計測をブリッジするための重要な手法として,チャネル状態情報(CSI)からの幾何学的特徴抽出が出現する。
本稿では, 受信信号強度(RSS)データを3次元環境知識なしで探索し, 放射光マップと環境幾何学を共同構築することを提案する。
反射領域に基づく幾何モデルを含む物理インフォームドディープラーニングフレームワークを提案し, ブロック, 反射, 散乱成分の学習を行った。
論文 参考訳(メタデータ) (2025-10-24T08:17:14Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。