論文の概要: SAR-TEXT: A Large-Scale SAR Image-Text Dataset Built with SAR-Narrator and Progressive Transfer Learning
- arxiv url: http://arxiv.org/abs/2507.18743v1
- Date: Thu, 24 Jul 2025 18:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.725549
- Title: SAR-TEXT: A Large-Scale SAR Image-Text Dataset Built with SAR-Narrator and Progressive Transfer Learning
- Title(参考訳): SAR-TEXT: SAR-Narratorとプログレッシブトランスファー学習を用いた大規模SAR画像テキストデータセット
- Authors: Xinjun Cheng, Yiguo He, Junjie Zhu, Chunping Qiu, Jun Wang, Qiangjuan Huang, Ke Yang,
- Abstract要約: 我々は130,000以上のSAR画像テキストペアからなる大規模で高品質なSAR画像テキストデータセットを構築した。
SAR-Textデータセットの有効性を検証するために,3つの典型的な視覚言語タスクについて実験を行った。
SAR-RS-CLIPは検索性能を大幅に改善し、平均リコール率は16.43%向上した。
キャプションタスクにおいて、SAR-RS-CoCaは、元のCoCaモデルよりもそれぞれ8倍、4倍、10倍のBLEU-4、SPICE、CIDErスコアを達成する。
- 参考スコア(独自算出の注目度): 15.611051083630862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have achieved remarkable breakthroughs in the field of remote sensing in recent years. Synthetic Aperture Radar (SAR) imagery, with its all-weather capability, is essential in remote sensing, yet the lack of large-scale, high-quality SAR image-text datasets hinders its semantic understanding. In this paper, we construct SAR-Text, a large-scale and high-quality dataset consisting of over 130,000 SAR image-text pairs. To construct the SAR-Text dataset, we design the SAR-Narrator framework, which generates textual descriptions for SAR images through a multi-stage progressive transfer learning strategy. To verify the effectiveness of the SAR-TEXT dataset, we conduct experiments on three typical vision-language tasks: image-text retrieval, image captioning, and visual question answering (VQA). Specifically, we construct three representative models on SAR-TEXT: SAR-RS-CLIP, SAR-RS-CoCa, and SAR-GPT. SAR-RS-CLIP achieves notable improvements in retrieval performance, boosting average recall by 16.43% and 10.54% on the OSdataset-512 and HRSID test sets, respectively. In the captioning task, SAR-RS-CoCa achieves BLEU-4, SPICE, and CIDEr scores exceeding those of the original CoCa model by more than 8x, 4x, and 10x, respectively. In the VQA task, SAR-GPT outperforms baseline and single-stage models on multiple SAR-VQA datasets, demonstrating stronger semantic understanding and reasoning ability, as further confirmed by qualitative results. It is worth noting that, as a flexible captioning tool, SAR-Narrator can be readily adopted by the community to construct larger-scale SAR image-text datasets.
- Abstract(参考訳): 近年,視覚言語モデル (VLM) はリモートセンシングの分野で画期的な進歩を遂げている。
SAR(Synthetic Aperture Radar)画像は、その全天候能力を持つが、リモートセンシングには不可欠であるが、大規模で高品質なSAR画像テキストデータセットの欠如は、その意味的理解を妨げる。
本稿では,130,000以上のSAR画像テキストペアからなる大規模かつ高品質なデータセットであるSAR-Textを構築する。
SAR-Textデータセットを構築するために,多段階のプログレッシブトランスファー学習戦略を用いて,SAR画像のテキスト記述を生成するSAR-Narratorフレームワークを設計する。
SAR-TEXTデータセットの有効性を検証するために、画像テキスト検索、画像キャプション、視覚質問応答(VQA)の3つの典型的な視覚言語タスクについて実験を行った。
具体的には,SAR-RS-CLIP,SAR-RS-CoCa,SAR-GPTの3つの代表モデルを構築する。
SAR-RS-CLIPは、平均リコールを16.43%、OSdataset-512とRSIDテストセットで10.54%向上した。
キャプションタスクにおいて、SAR-RS-CoCaは、元のCoCaモデルよりもそれぞれ8倍、4倍、10倍のBLEU-4、SPICE、CIDErスコアを達成する。
VQAタスクでは、SAR-GPTは複数のSAR-VQAデータセットのベースラインモデルとシングルステージモデルよりも優れており、質的な結果によってさらに確認されるように、より強力な意味理解と推論能力を示す。
フレキシブルなキャプションツールであるSAR-Narratorは、より大規模なSAR画像テキストデータセットを構築するために、コミュニティによって容易に採用できる点に注意が必要だ。
関連論文リスト
- SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding [20.314150537672198]
VLM(Vision-Language Models)は、強力なオープン語彙解釈と柔軟な言語相互作用を提供するRGBイメージ理解において、顕著な成功を収めている。
マルチモーダルなSAR画像理解に適した大規模ベンチマークであるSARLANG-1Mを紹介する。
階層的な解像度(0.1mから25m)、きめ細かいセマンティック記述(簡潔さと詳細なキャプションを含む)、多様なリモートセンシングカテゴリ、そして7つのアプリケーションと1,012の質問タイプにまたがるマルチタスクの質問応答ペアが特徴である。
論文 参考訳(メタデータ) (2025-04-04T08:09:53Z) - SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文 参考訳(メタデータ) (2025-02-12T07:19:36Z) - SAR Strikes Back: A New Hope for RSVQA [1.6249398255272318]
RSVQAフレームワークにSAR画像を導入するデータセットを提案する。
SAR画像は、現場から電磁的な情報を捉え、雲のような大気条件の影響を受けない。
本研究では,SARデータに光モダリティを融合させた場合,特に水域などの特定の土地被覆クラスに関する質問に対して,付加的な情報を提供することを示す。
論文 参考訳(メタデータ) (2025-01-14T14:07:48Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Can SAR improve RSVQA performance? [1.6249398255272318]
合成開口レーダ(SAR)画像がこの分野で有用かどうかを検討する。
SARのみの分類結果について検討し、SARデータから情報を抽出する最善の方法を検討する。
最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2024-08-28T08:53:20Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion [14.45289690639374]
QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合におけるディープラーニング研究を促進します。
光学画像からのクロスモーダル情報によって強化されたSAR光画像マッチングとSAR船舶検出の2つの代表的な用途の例を示す。
論文 参考訳(メタデータ) (2021-03-15T10:22:46Z) - Hyperspectral Image Super-Resolution with Spectral Mixup and
Heterogeneous Datasets [99.92564298432387]
ハイパースペクトル画像(HSI)超解像(SR)の研究
HSI SRは高次元データと限られたトレーニング例によって特徴づけられる。
これにより、非分布サンプルに対する記憶や感度などのニューラルネットワークの望ましくない動作が悪化する。
論文 参考訳(メタデータ) (2021-01-19T12:19:53Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。