論文の概要: SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding
- arxiv url: http://arxiv.org/abs/2504.03254v1
- Date: Fri, 04 Apr 2025 08:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:13.556587
- Title: SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding
- Title(参考訳): SARLANG-1M:SAR画像理解における視覚言語モデリングのベンチマーク
- Authors: Yimin Wei, Aoran Xiao, Yexian Ren, Yuting Zhu, Hongruixuan Chen, Junshi Xia, Naoto Yokoya,
- Abstract要約: VLM(Vision-Language Models)は、強力なオープン語彙解釈と柔軟な言語相互作用を提供するRGBイメージ理解において、顕著な成功を収めている。
マルチモーダルなSAR画像理解に適した大規模ベンチマークであるSARLANG-1Mを紹介する。
階層的な解像度(0.1mから25m)、きめ細かいセマンティック記述(簡潔さと詳細なキャプションを含む)、多様なリモートセンシングカテゴリ、そして7つのアプリケーションと1,012の質問タイプにまたがるマルチタスクの質問応答ペアが特徴である。
- 参考スコア(独自算出の注目度): 20.314150537672198
- License:
- Abstract: Synthetic Aperture Radar (SAR) is a crucial remote sensing technology, enabling all-weather, day-and-night observation with strong surface penetration for precise and continuous environmental monitoring and analysis. However, SAR image interpretation remains challenging due to its complex physical imaging mechanisms and significant visual disparities from human perception. Recently, Vision-Language Models (VLMs) have demonstrated remarkable success in RGB image understanding, offering powerful open-vocabulary interpretation and flexible language interaction. However, their application to SAR images is severely constrained by the absence of SAR-specific knowledge in their training distributions, leading to suboptimal performance. To address this limitation, we introduce SARLANG-1M, a large-scale benchmark tailored for multimodal SAR image understanding, with a primary focus on integrating SAR with textual modality. SARLANG-1M comprises more than 1 million high-quality SAR image-text pairs collected from over 59 cities worldwide. It features hierarchical resolutions (ranging from 0.1 to 25 meters), fine-grained semantic descriptions (including both concise and detailed captions), diverse remote sensing categories (1,696 object types and 16 land cover classes), and multi-task question-answering pairs spanning seven applications and 1,012 question types. Extensive experiments on mainstream VLMs demonstrate that fine-tuning with SARLANG-1M significantly enhances their performance in SAR image interpretation, reaching performance comparable to human experts. The dataset and code will be made publicly available at https://github.com/Jimmyxichen/SARLANG-1M.
- Abstract(参考訳): 合成開口レーダ(synthetic Aperture Radar, SAR)は, 高精度で連続的な環境モニタリングと分析を行うために, 全天候, 昼夜の観測を可能にする, 重要なリモートセンシング技術である。
しかし、SAR画像の解釈は、複雑な物理的イメージング機構と人間の知覚との大きな相違により、依然として困難である。
近年、VLM(Vision-Language Models)はRGBイメージ理解において顕著な成功を収めており、強力なオープン語彙解釈と柔軟な言語相互作用を提供している。
しかし、それらのSAR画像への応用は、トレーニング分布におけるSAR固有の知識の欠如によって厳しく制約され、最適化性能が低下する。
この制限に対処するために,マルチモーダルなSAR画像理解に適した大規模ベンチマークであるSARLANG-1Mを導入する。
SARLANG-1Mは、世界中の59都市から収集された100万以上の高品質なSAR画像テキストペアで構成されている。
階層的な解像度(0.1mから25m)、微粒なセマンティック記述(簡潔なキャプションと詳細なキャプションを含む)、多様なリモートセンシングカテゴリ(1,696のオブジェクトタイプと16のランドカバークラス)、そして7つのアプリケーションと1,012の質問タイプにまたがるマルチタスクの質問応答ペアを備えている。
SARLANG-1Mによる微調整は、SAR画像解釈における性能を大幅に向上させ、人間の専門家に匹敵する性能に達することを示した。
データセットとコードはhttps://github.com/Jimmyxichen/SARLANG-1Mで公開される。
関連論文リスト
- GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-13T18:52:14Z) - SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文 参考訳(メタデータ) (2025-02-12T07:19:36Z) - Enhancing SAR Object Detection with Self-Supervised Pre-training on Masked Auto-Encoders [5.234109158596138]
自己教師付き学習(SSL)は、事前学習プロセス中にSAR画像の特徴表現を学習するために提案される。
提案手法は、SAR画像の適切な潜在表現をキャプチャし、下流タスクにおけるモデル一般化を改善する。
論文 参考訳(メタデータ) (2025-01-20T03:28:34Z) - PBVS 2024 Solution: Self-Supervised Learning and Sampling Strategies for SAR Classification in Extreme Long-Tail Distribution [5.965417506363093]
本稿では,マルチモーダル学習と推論を組み合わせた2段階学習手法を提案する。
我々のモデルは精度21.45%、AUC0.56、総合スコア0.30を達成し、競争では9位となった。
論文 参考訳(メタデータ) (2024-12-17T05:49:16Z) - Electrooptical Image Synthesis from SAR Imagery Using Generative Adversarial Networks [0.0]
本研究は,SAR画像とEO画像のギャップを埋めることでリモートセンシングの分野に寄与する。
その結果,解釈可能性が大きく向上し,EO画像に精通したアナリストがSARデータにアクセスしやすくなった。
本研究は,SAR画像とEO画像のギャップを埋めることでリモートセンシングの分野に寄与し,データ解釈を向上するための新しいツールを提供する。
論文 参考訳(メタデータ) (2024-09-07T14:31:46Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。