論文の概要: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
- arxiv url: http://arxiv.org/abs/2507.13812v1
- Date: Fri, 18 Jul 2025 10:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.262541
- Title: SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
- Title(参考訳): SkySense V2:マルチモーダルリモートセンシングのための統一基盤モデル
- Authors: Yingying Zhang, Lixiang Ru, Kang Wu, Lei Yu, Lei Liang, Yansheng Li, Jingdong Chen,
- Abstract要約: マルチモーダルリモートセンシング基礎モデル(MM-RSFM)は、様々な地球観測タスクを大幅に進歩させた。
マルチモーダル性を扱うために1つのトランスフォーマーバックボーンを用いる統一MM-RSFMであるSkySense V2を提案する。
- 参考スコア(独自算出の注目度): 32.58127653020506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multi-modal remote sensing foundation model (MM-RSFM) has significantly advanced various Earth observation tasks, such as urban planning, environmental monitoring, and natural disaster management. However, most existing approaches generally require the training of separate backbone networks for each data modality, leading to redundancy and inefficient parameter utilization. Moreover, prevalent pre-training methods typically apply self-supervised learning (SSL) techniques from natural images without adequately accommodating the characteristics of remote sensing (RS) images, such as the complicated semantic distribution within a single RS image. In this work, we present SkySense V2, a unified MM-RSFM that employs a single transformer backbone to handle multiple modalities. This backbone is pre-trained with a novel SSL strategy tailored to the distinct traits of RS data. In particular, SkySense V2 incorporates an innovative adaptive patch merging module and learnable modality prompt tokens to address challenges related to varying resolutions and limited feature diversity across modalities. In additional, we incorporate the mixture of experts (MoE) module to further enhance the performance of the foundation model. SkySense V2 demonstrates impressive generalization abilities through an extensive evaluation involving 16 datasets over 7 tasks, outperforming SkySense by an average of 1.8 points.
- Abstract(参考訳): マルチモーダルリモートセンシング基盤モデル(MM-RSFM)は、都市計画、環境モニタリング、自然災害管理など、様々な地球観測タスクを著しく進歩させてきた。
しかし、既存のほとんどのアプローチでは、データモダリティごとに別々のバックボーンネットワークをトレーニングする必要があるため、冗長性と非効率なパラメータ利用につながる。
さらに、一般的な事前学習手法では、単一RS画像内の複雑な意味分布のようなリモートセンシング(RS)画像の特徴を適切に調整することなく、自然画像から自己教師付き学習(SSL)技術を適用するのが一般的である。
本研究では,マルチモーダル性を扱うために1つのトランスフォーマーバックボーンを用いる統一MM-RSFMであるSkySense V2を提案する。
このバックボーンは、RSデータの異なる特性に合わせて、新しいSSL戦略で事前訓練されている。
特に、SkySense V2には革新的な適応パッチマージモジュールと学習可能なモダリティプロンプトが組み込まれており、様々な解像度やモダリティにまたがる限られた特徴の多様性に関連する課題に対処している。
さらに,基礎モデルの性能を高めるために,専門家(MoE)モジュールの混合を取り入れた。
SkySense V2は、7つのタスクに16のデータセットを含む広範囲な評価を通じて、印象的な一般化能力を示し、SkySenseを平均1.8ポイント上回る。
関連論文リスト
- RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - RingMoE: Mixture-of-Modality-Experts Multi-Modal Foundation Models for Universal Remote Sensing Image Interpretation [24.48561340129571]
RingMoEは147億のパラメータを持つ統一RS基盤モデルであり、9つの衛星から4億個のマルチモーダルRS画像に事前訓練されている。
緊急対応、土地管理、海洋科学、都市計画など、様々な分野に展開および試行されている。
論文 参考訳(メタデータ) (2025-04-04T04:47:54Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - RS-MoE: A Vision-Language Model with Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering [23.699493284403967]
本稿では,リモートセンシングに特化してカスタマイズされた,最初のMixture of ExpertベースのVLMであるRS-MoEを提案する。
従来のMoEモデルとは異なり、RS-MoEのコアとなるMoEブロックは、新しいインストラクションルータと複数の軽量言語モデル(LLM)をエキスパートモデルとして組み込んだものである。
本モデルでは, 精度, 文脈に関連のあるキャプションを生成する際に, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-03T15:05:49Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery [35.550999964460466]
本稿では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシングデータセットを事前トレーニングした総称10億スケールモデルSkySenseを提案する。
我々の知る限り、SkySenseは今までで最大のマルチモーダルであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。
論文 参考訳(メタデータ) (2023-12-15T09:57:21Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。