論文の概要: OptiSAR-Net++: A Large-Scale Benchmark and Transformer-Free Framework for Cross-Domain Remote Sensing Visual Grounding
- arxiv url: http://arxiv.org/abs/2603.24876v1
- Date: Wed, 25 Mar 2026 23:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.017278
- Title: OptiSAR-Net++: A Large-Scale Benchmark and Transformer-Free Framework for Cross-Domain Remote Sensing Visual Grounding
- Title(参考訳): OptiSAR-Net++: 大規模ベンチマークとトランスフォーマーフリーフレームワーク
- Authors: Xiaoyu Tang, Jun Dong, Jintao Cheng, Rui Fan,
- Abstract要約: 我々は、クロスドメインRSVGタスクを導入し、この設定のための最初の大規模ベンチマークデータセットであるOpsSAR-RSVGを構築します。
クロスドメイン機能モデリングの課題に対処するため,OptiSAR-Net++を提案する。
我々のフレームワークは、効率的なクロスドメイン機能デカップリングのためのパッチレベルのLow-Rank Adaptation Mixture of Experts (PL-MoE)を備えている。
- 参考スコア(独自算出の注目度): 9.108103619472788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing visual grounding (RSVG) aims to localize specific targets in remote sensing images using natural language expressions. However, existing methods are restricted to single-sensor domains, i.e., either optical or synthetic aperture radar (SAR), limiting their real-world applicability. In this paper, we introduce the Cross-Domain RSVG (CD-RSVG) task and construct OptSAR-RSVG, the first large-scale benchmark dataset for this setting. To tackle the challenges of cross-domain feature modeling, computational inefficiency, and fine-grained semantic discrimination, we propose OptiSAR-Net++. Our framework features a patch-level Low-Rank Adaptation Mixture of Experts (PL-MoE) for efficient cross-domain feature decoupling. To mitigate the substantial computational overhead of Transformer decoding frameworks, we adopt a CLIP-based contrastive paradigm and further incorporate dynamic adversarial negative sampling, thereby transforming generative regression into an efficient cross-modal matching process. Additionally, a text-guided dual-gate fusion module (TGDF-SSA) and a region-aware auxiliary head are introduced to enhance semantic-visual alignment and spatial modeling. Extensive experiments demonstrate that OptiSAR-Net++ achieves SOTA performance on both OptSAR-RSVG and DIOR-RSVG benchmarks, offering significant advantages in localization accuracy and efficiency. Our code and dataset will be made publicly available.
- Abstract(参考訳): リモートセンシング視覚グラウンドティング(RSVG)は、自然言語表現を用いて、リモートセンシング画像中の特定のターゲットをローカライズすることを目的としている。
しかし、既存の手法は単一センサー領域、すなわち光学的または合成開口レーダー(SAR)に制限されており、現実の応用性が制限されている。
本稿では,Cross-Domain RSVG(CD-RSVG)タスクを導入し,この設定のための最初の大規模ベンチマークデータセットであるOpsSAR-RSVGを構築する。
ドメイン間特徴モデリング,計算不効率,きめ細かな意味的識別の課題に対処するため,OptiSAR-Net++を提案する。
我々のフレームワークは、効率的なクロスドメイン機能デカップリングのためのパッチレベルのLow-Rank Adaptation Mixture of Experts (PL-MoE)を備えている。
トランスフォーマーデコーディングフレームワークの計算オーバーヘッドを大幅に軽減するため、CLIPベースのコントラスト的パラダイムを採用し、動的対向陰性サンプリングをさらに取り入れ、生成回帰を効率的なクロスモーダルマッチングプロセスに変換する。
さらに、テキスト誘導デュアルゲート融合モジュール(TGDF-SSA)と領域認識補助ヘッドを導入し、セマンティック視覚アライメントと空間モデリングを強化する。
OptiSAR-Net++はOptSAR-RSVGベンチマークとDIOR-RSVGベンチマークの両方でSOTA性能を実現しており、ローカライゼーションの精度と効率に大きな利点がある。
コードとデータセットは公開されます。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - RS-ISRefiner: Towards Better Adapting Vision Foundation Models for Interactive Segmentation of Remote Sensing Images [17.648922817109224]
RS-ISRefinerは、リモートセンシング画像に適したクリックベースのIISフレームワークである。
セグメンテーション精度、効率、相互作用コストの点で、最先端IIS法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-30T04:12:43Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Decomposition-based Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation [30.606689882397223]
非教師なし領域適応(UDA)技術は、地球科学のセマンティックセグメンテーションに不可欠である。
高レベルの特徴空間におけるドメインアライメントに焦点を当てた既存のUDA手法の多くは、局所的な空間的詳細とグローバルな文脈的意味論を同時に維持するのに苦労している。
ドメイン不変表現学習を導くための新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:13:49Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。