Fugu-MT 論文翻訳(概要): SAR-KnowLIP: Towards Multimodal Foundation Models for Remote Sensing

論文の概要: SAR-KnowLIP: Towards Multimodal Foundation Models for Remote Sensing

arxiv url: http://arxiv.org/abs/2509.23927v1
Date: Sun, 28 Sep 2025 15:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.537867
Title: SAR-KnowLIP: Towards Multimodal Foundation Models for Remote Sensing
Title（参考訳）: SAR-KnowLIP:リモートセンシングのためのマルチモーダルファンデーションモデルを目指して
Authors: Yi Yang, Xiaokun Zhang, Qingchen Fang, Ziqi Ye, Rui Li, Li Liu, Haipeng Wang,
Abstract要約: クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。本稿では、再利用可能なデータと評価ベースラインとともに、初の汎用SARマルチモーダル基盤モデルであるSAR-KnowLIPを提案する。
参考スコア（独自算出の注目度）: 13.878173189132085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-modal artificial intelligence has garnered widespread attention in recent years, achieving significant progress in the study of natural images. However, existing methods are mostly designed for RGB imagery, leaving a significant gap in modeling synthetic aperture radar (SAR) imagery. SAR, with its all-day, all-weather imaging capabilities, plays an irreplaceable role in remote sensing scene understanding. To address this gap, this paper proposes SAR-KnowLIP, the first universal SAR multimodal foundational model, along with reusable data and evaluation baselines. Specifically: (1) This work introduces the critical yet long-overlooked attribute of geographic information into remote sensing research, constructing SAR-GEOVL-1M (the first large-scale SAR dataset with complete geographic projection properties), covering multiple satellite platforms, 120,000 images, and 135 cities. (2) Aligned structured text is generated through a hierarchical cognitive chain-of-thought (HCoT), providing more than one million multi-dimensional semantic annotations of landforms, regional functions, target attributes, and spatial relationships. (3) We design a Self-Consistent Iterative Optimization mechanism that continuously enhances cross-modal alignment through a self-supervised closed loop of contrastive, matching, and reconstruction learning on a transferable multimodal encoder. (4) A unified evaluation benchmark is established across 11 representative downstream vision and vision-language tasks, with comparisons against 14 leading foundation models, where SAR-KnowLIP demonstrates leading performance, particularly in object counting and land-cover classification. We expect that SAR-KnowLIP's large-scale multimodal data, transferable model architecture, and comprehensive experimental benchmark will significantly advance the development of SAR multimodal baseline models.
Abstract（参考訳）: クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。しかし、既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。 SARは、全天候撮影機能を備えており、リモートセンシングシーンの理解において、その役割を担っている。このギャップに対処するため,SAR-KnowLIPは,再利用可能なデータと評価基準とともに,最初の汎用SARマルチモーダル基盤モデルである。本研究は,SAR-GEOVL-1M(地理的プロジェクション特性が完全に整った最初の大規模SARデータセット)を構築し,複数の衛星プラットフォーム,12万の画像,135都市を網羅する。 2) 階層的認知連鎖 (HCoT) により, 地形, 地域機能, 対象属性, 空間的関係の多次元的意味アノテーションを100万以上提供している。 (3) トランスファー可能なマルチモーダルエンコーダ上での自己教師付き閉ループ,マッチング,再構成学習を通じて,相互モーダルアライメントを継続的に向上する自己一貫性反復最適化機構を設計する。 (4)SAR-KnowLIPは,特にオブジェクトカウントや土地被覆分類において,主要な14の基盤モデルと比較して,11の下流視覚と視覚言語タスクに統一的な評価ベンチマークを定めている。我々は、SAR-KnowLIPの大規模マルチモーダルデータ、転送可能なモデルアーキテクチャ、総合的な実験ベンチマークが、SARマルチモーダルベースラインモデルの開発を著しく前進させることを期待している。

関連論文リスト

StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T11:35:05Z)
FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery [8.62554606349568]
FUSAR-GPTは、合成開口レーダ(SAR)アプリケーション専用のVLMである。多ソースリモートセンシングの時間的特徴を「時空間アンカー」を介してモデルの視覚的バックボーンに埋め込む。これは、いくつかの典型的なリモートセンシングビジュアルベンチマークテストにまたがって、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-22T13:40:17Z)
SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery [46.87845911116779]
SARCLIPは、SARドメインに適した最初のビジョン言語基盤モデルである。 SARCLIPは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練される。画像テキスト検索とゼロショット分類タスクの実験は、SARCLIPの優れた性能を示す。
論文参考訳（メタデータ） (2025-10-26T13:04:50Z)
Knowledge-guided Complex Diffusion Model for PolSAR Image Classification in Contourlet Domain [58.46450049579116]
本稿では,Contourlet領域におけるPolSAR画像分類のための知識誘導複合拡散モデルを提案する。具体的には、まずデータを低周波サブバンドと高周波サブバンドに分解するためにContourlet変換を適用する。次に、低周波成分の統計特性をモデル化するために、知識誘導複合拡散ネットワークを設計する。
論文参考訳（メタデータ） (2025-07-08T04:50:28Z)
CGEarthEye:A High-Resolution Remote Sensing Vision Foundation Model Based on the Jilin-1 Satellite Constellation [3.5464435279468907]
ジリン-1(英: Jilin-1)は、世界最大の準メートル級商業RS衛星である。本研究は,Jilin-1衛星特性に特化して設計されたRSVFMフレームワークであるCGEarthEyeを提案する。
論文参考訳（メタデータ） (2025-07-01T01:05:18Z)
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。 TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文参考訳（メタデータ） (2025-06-06T17:59:50Z)
Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。 EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文参考訳（メタデータ） (2025-04-09T15:13:26Z)
RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文参考訳（メタデータ） (2025-04-04T04:47:54Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文参考訳（メタデータ） (2023-12-15T09:57:21Z)
Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture [23.375515181854254]
SSL(Self-Supervised Learning)手法は,大規模未ラベルデータの事前学習を伴う様々なSAR自動ターゲット認識(ATR)タスクを実現する。 SSLはデータから直接監視信号を構築することを目的としている。本研究では,SAR ATRの基盤モデル構築に有効なSSL方式について検討した。
論文参考訳（メタデータ） (2023-11-26T01:05:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。