論文の概要: SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing
- arxiv url: http://arxiv.org/abs/2602.05480v1
- Date: Thu, 05 Feb 2026 09:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.864203
- Title: SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing
- Title(参考訳): SOMA-1M:マルチタスクリモートセンシングのための大規模SAR-Optical Multi- resolutionアライメントデータセット
- Authors: Peihao Wu, Yongxiang Yao, Yi Wan, Wenfei Zhang, Ruipeng Zhao, Jiayuan Li, Yongjun Zhang,
- Abstract要約: SOMA-1Mは512×512ピクセルのジオレファレンス画像を含むピクセルレベルの正確に整列したデータセットである。
このデータセットはSentinel-1、PIESAT-1、Capella Space、Google Earthの画像を統合し、0.5mから10mのグローバルなマルチスケールのカバレッジを実現している。
このデータセットに基づいて、画像マッチング、画像融合、SAR支援クラウド除去、モーダル間翻訳を含む4つの階層的視覚タスクの総合的な評価ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 11.908437730011899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic Aperture Radar (SAR) and optical imagery provide complementary strengths that constitute the critical foundation for transcending single-modality constraints and facilitating cross-modal collaborative processing and intelligent interpretation. However, existing benchmark datasets often suffer from limitations such as single spatial resolution, insufficient data scale, and low alignment accuracy, making them inadequate for supporting the training and generalization of multi-scale foundation models. To address these challenges, we introduce SOMA-1M (SAR-Optical Multi-resolution Alignment), a pixel-level precisely aligned dataset containing over 1.3 million pairs of georeferenced images with a specification of 512 x 512 pixels. This dataset integrates imagery from Sentinel-1, PIESAT-1, Capella Space, and Google Earth, achieving global multi-scale coverage from 0.5 m to 10 m. It encompasses 12 typical land cover categories, effectively ensuring scene diversity and complexity. To address multimodal projection deformation and massive data registration, we designed a rigorous coarse-to-fine image matching framework ensuring pixel-level alignment. Based on this dataset, we established comprehensive evaluation benchmarks for four hierarchical vision tasks, including image matching, image fusion, SAR-assisted cloud removal, and cross-modal translation, involving over 30 mainstream algorithms. Experimental results demonstrate that supervised training on SOMA-1M significantly enhances performance across all tasks. Notably, multimodal remote sensing image (MRSI) matching performance achieves current state-of-the-art (SOTA) levels. SOMA-1M serves as a foundational resource for robust multimodal algorithms and remote sensing foundation models. The dataset will be released publicly at: https://github.com/PeihaoWu/SOMA-1M.
- Abstract(参考訳): 合成開口レーダ(SAR)と光学画像は、単一モダリティ制約を超越し、クロスモーダルな協調処理とインテリジェントな解釈を促進する重要な基盤となる補完的な強度を提供する。
しかし、既存のベンチマークデータセットは、単一空間分解能、不十分なデータスケール、低いアライメント精度といった制限に悩まされることが多く、マルチスケール基盤モデルのトレーニングと一般化を支援するには不十分である。
これらの課題に対処するため、SOMA-1M (SAR-Optical Multi- resolution Alignment) を導入し、512 x 512ピクセルの仕様で1300万対以上のジオレファレンス画像を含む画素レベルの正確に整列したデータセットを提案する。
このデータセットはSentinel-1、PIESAT-1、Capella Space、Google Earthの画像を統合し、0.5mから10mのグローバルなマルチスケールのカバレッジを実現している。
12の典型的な土地被覆カテゴリーを含み、シーンの多様性と複雑さを効果的に保証している。
マルチモーダル・プロジェクションの変形と大量のデータ登録に対処するため,画素レベルのアライメントを保証する厳密な粗い画像マッチング・フレームワークを設計した。
このデータセットに基づいて、画像マッチング、画像融合、SAR支援クラウド除去、および30以上の主流アルゴリズムを含むクロスモーダル翻訳を含む4つの階層的視覚タスクの総合的な評価ベンチマークを構築した。
実験の結果,SOMA-1Mの教師付きトレーニングは全タスクのパフォーマンスを著しく向上させることがわかった。
特に、マルチモーダルリモートセンシング画像(MRSI)マッチング性能は、現在の最先端(SOTA)レベルを達成する。
SOMA-1Mは、堅牢なマルチモーダルアルゴリズムとリモートセンシング基盤モデルの基盤となる。
データセットは、https://github.com/PeihaoWu/SOMA-1Mで公開されます。
関連論文リスト
- A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark [8.707197692292292]
これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。
また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
論文 参考訳(メタデータ) (2025-06-04T05:26:51Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - 3MOS: Multi-sources, Multi-resolutions, and Multi-scenes dataset for Optical-SAR image matching [6.13702551312774]
光SAR画像マッチングのための大規模マルチソース、マルチ解像度、マルチシーンデータセット(3MOS)を紹介する。
6つの商用衛星からのSARデータを含む155Kの光学SAR画像対で構成され、解像度は1.25mから12.5mである。
データは、都市、農村、平野、丘、山、水、砂漠、凍った土を含む8つのシーンに分類されている。
論文 参考訳(メタデータ) (2024-04-01T00:31:11Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。