論文の概要: SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery
- arxiv url: http://arxiv.org/abs/2510.22665v1
- Date: Sun, 26 Oct 2025 13:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.981169
- Title: SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery
- Title(参考訳): SARCLIP:SAR画像における意味的理解とターゲット認識のための視覚言語基礎モデル
- Authors: Qiwei Ma, Zhiyu Wang, Wang Liu, Xukun Lu, Bin Deng, Puhong Duan, Xudong Kang, Shutao Li,
- Abstract要約: SARCLIPは、SARドメインに適した最初のビジョン言語基盤モデルである。
SARCLIPは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練される。
画像テキスト検索とゼロショット分類タスクの実験は、SARCLIPの優れた性能を示す。
- 参考スコア(独自算出の注目度): 46.87845911116779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic Aperture Radar (SAR) has emerged as a crucial imaging modality due to its all-weather capabilities. While recent advancements in self-supervised learning and Masked Image Modeling (MIM) have paved the way for SAR foundation models, these approaches primarily focus on low-level visual features, often overlooking multimodal alignment and zero-shot target recognition within SAR imagery. To address this limitation, we construct SARCLIP-1M, a large-scale vision language dataset comprising over one million text-image pairs aggregated from existing datasets. We further introduce SARCLIP, the first vision language foundation model tailored for the SAR domain. Our SARCLIP model is trained using a contrastive vision language learning approach by domain transferring strategy, enabling it to bridge the gap between SAR imagery and textual descriptions. Extensive experiments on image-text retrieval and zero-shot classification tasks demonstrate the superior performance of SARCLIP in feature extraction and interpretation, significantly outperforming state-of-the-art foundation models and advancing the semantic understanding of SAR imagery. The code and datasets will be released soon.
- Abstract(参考訳): SAR(Synthetic Aperture Radar)はその全天候能力のために重要な画像モダリティとして登場した。
近年の自己教師型学習とマズード画像モデリング(MIM)は、SAR基盤モデルの道を開いたが、これらのアプローチは主に低レベルの視覚的特徴に焦点を当てており、多くの場合、SAR画像内のマルチモーダルアライメントやゼロショットターゲット認識を見落としている。
この制限に対処するため,既存のデータセットから100万以上のテキストイメージ対を集約した大規模視覚言語データセットであるSARCLIP-1Mを構築した。
さらに、SARドメインに適した最初のビジョン言語基盤モデルであるSARCLIPを紹介する。
我々のSARCLIPモデルは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練されており、SAR画像とテキスト記述とのギャップを埋めることができる。
画像テキスト検索とゼロショット分類タスクの広範な実験は、特徴抽出と解釈におけるSARCLIPの優れた性能を示し、最先端の基礎モデルを大幅に上回り、SAR画像の意味的理解を前進させる。
コードとデータセットはまもなくリリースされる予定だ。
関連論文リスト
- SAR-KnowLIP: Towards Multimodal Foundation Models for Remote Sensing [13.878173189132085]
クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。
既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。
本稿では、再利用可能なデータと評価ベースラインとともに、初の汎用SARマルチモーダル基盤モデルであるSAR-KnowLIPを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:03:25Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.32553804641971]
視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文 参考訳(メタデータ) (2025-02-12T07:19:36Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。