論文の概要: FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery
- arxiv url: http://arxiv.org/abs/2602.19190v1
- Date: Sun, 22 Feb 2026 13:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.523603
- Title: FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery
- Title(参考訳): FUSAR-GPT : SAR画像のための時空間的特徴埋め込みと2段階分離型視覚言語モデル
- Authors: Xiaokun Zhang, Yi Yang, Ziqi Ye, Baiyun, Xiaorong Guo, Qingchen Fang, Ruyi Zhang, Xinpeng Zhou, Haipeng Wang,
- Abstract要約: FUSAR-GPTは、合成開口レーダ(SAR)アプリケーション専用のVLMである。
多ソースリモートセンシングの時間的特徴を「時空間アンカー」を介してモデルの視覚的バックボーンに埋め込む。
これは、いくつかの典型的なリモートセンシングビジュアルベンチマークテストにまたがって、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.62554606349568
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on the intelligent interpretation of all-weather, all-time Synthetic Aperture Radar (SAR) is crucial for advancing remote sensing applications. In recent years, although Visual Language Models (VLMs) have demonstrated strong open-world understanding capabilities on RGB images, their performance is severely limited when directly applied to the SAR field due to the complexity of the imaging mechanism, sensitivity to scattering features, and the scarcity of high-quality text corpora. To systematically address this issue, we constructed the inaugural SAR Image-Text-AlphaEarth feature triplet dataset and developed FUSAR-GPT, a VLM specifically for SAR. FUSAR-GPT innovatively introduces a geospatial baseline model as a 'world knowledge' prior and embeds multi-source remote-sensing temporal features into the model's visual backbone via 'spatiotemporal anchors', enabling dynamic compensation for the sparse representation of targets in SAR images. Furthermore, we designed a two-stage SFT strategy to decouple the knowledge injection and task execution of large models. The spatiotemporal feature embedding and the two-stage decoupling paradigm enable FUSAR-GPT to achieve state-of-the-art performance across several typical remote sensing visual-language benchmark tests, significantly outperforming mainstream baseline models by over 12%.
- Abstract(参考訳): 全天候・全時間合成開口レーダ(SAR)のインテリジェント解釈に関する研究は,リモートセンシング応用の進展に不可欠である。
近年、ビジュアル言語モデル(VLM)は、RGB画像に対して強力なオープンワールド理解能力を示しているが、撮像機構の複雑さ、散乱特性への感受性、高品質テキストコーパスの不足により、SARフィールドに直接適用する場合、その性能は著しく制限されている。
この問題に体系的に対処するため,SAR画像-テキスト-アルファアース特徴トリプトデータセットを構築し,SAR専用のVLMであるFUSAR-GPTを開発した。
FUSAR-GPTは、地球空間ベースラインモデルを「世界知識」として革新的に導入し、「時空間アンカー」を介してマルチソースリモートセンシングの時間的特徴をモデルの視覚バックボーンに埋め込むことにより、SAR画像におけるターゲットのスパース表現の動的補償を可能にする。
さらに,大規模モデルの知識注入とタスク実行を分離する2段階のSFT戦略を設計した。
時空間的特徴埋め込みと2段階のデカップリングパラダイムにより、FUSAR-GPTは、いくつかの典型的なリモートセンシングビジュアルベンチマークテストで最先端のパフォーマンスを実現し、メインストリームのベースラインモデルを12%以上上回っている。
関連論文リスト
- Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-22T18:58:16Z) - Dual-domain Adaptation Networks for Realistic Image Super-resolution [81.34345637776408]
現実画像超解像(SR)は、現実世界の低解像度(LR)画像を高解像度(HR)画像に変換することに焦点を当てている。
現在の手法は、限られた現実世界のLR-HRデータと競合し、基本的な画像特徴の学習に影響を及ぼす。
我々は、シミュレーションされた画像SRモデルを実世界のデータセットに効率よく適応できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-21T12:57:23Z) - SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery [46.87845911116779]
SARCLIPは、SARドメインに適した最初のビジョン言語基盤モデルである。
SARCLIPは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練される。
画像テキスト検索とゼロショット分類タスクの実験は、SARCLIPの優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-26T13:04:50Z) - FUSAR-KLIP: Towards Multimodal Foundation Models for Remote Sensing [16.948824707021412]
クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。
既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。
本稿では,再利用可能なデータと評価ベースラインとともに,初の汎用SARマルチモーダル基盤モデルであるFUSAR-KLIPを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:03:25Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文 参考訳(メタデータ) (2025-02-12T07:19:36Z) - Electrooptical Image Synthesis from SAR Imagery Using Generative Adversarial Networks [0.0]
本研究は,SAR画像とEO画像のギャップを埋めることでリモートセンシングの分野に寄与する。
その結果,解釈可能性が大きく向上し,EO画像に精通したアナリストがSARデータにアクセスしやすくなった。
本研究は,SAR画像とEO画像のギャップを埋めることでリモートセンシングの分野に寄与し,データ解釈を向上するための新しいツールを提供する。
論文 参考訳(メタデータ) (2024-09-07T14:31:46Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。