論文の概要: MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models
- arxiv url: http://arxiv.org/abs/2507.07527v1
- Date: Thu, 10 Jul 2025 08:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.322771
- Title: MAPEX: Modality-Aware Pruning of Experts for Remote Sensing Foundation Models
- Title(参考訳): MAPEX:リモートセンシングファウンデーションモデルのためのエキスパートのモダリティを考慮したプルーニング
- Authors: Joelle Hanna, Linus Scheibenreif, Damian Borth,
- Abstract要約: リモートセンシング基礎モデルに関する最近の研究は、大量のリモートセンシングデータに基づいてコンピュータビジョンモデルを事前訓練している。
多くの重要なアプリケーションに対して、これはアプリケーションモダリティと事前トレーニングデータとのミスマッチを導入します。
このミスマッチを、モダリティの混合専門家に基づくリモートセンシング基盤モデルMAPEXで解決する。
- 参考スコア(独自算出の注目度): 6.206127662604578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing data is commonly used for tasks such as flood mapping, wildfire detection, or land-use studies. For each task, scientists carefully choose appropriate modalities or leverage data from purpose-built instruments. Recent work on remote sensing foundation models pre-trains computer vision models on large amounts of remote sensing data. These large-scale models tend to focus on specific modalities, often optical RGB or multispectral data. For many important applications, this introduces a mismatch between the application modalities and the pre-training data. Moreover, the large size of foundation models makes them expensive and difficult to fine-tune on typically small datasets for each task. We address this mismatch with MAPEX, a remote sensing foundation model based on mixture-of-modality experts. MAPEX is pre-trained on multi-modal remote sensing data with a novel modality-conditioned token routing mechanism that elicits modality-specific experts. To apply the model on a specific task, we propose a modality aware pruning technique, which only retains experts specialized for the task modalities. This yields efficient modality-specific models while simplifying fine-tuning and deployment for the modalities of interest. We experimentally validate MAPEX on diverse remote sensing datasets and show strong performance compared to fully supervised training and state-of-the-art remote sensing foundation models. Code is available at https://github.com/HSG-AIML/MAPEX.
- Abstract(参考訳): リモートセンシングデータは、洪水マッピング、山火事検出、土地利用研究などのタスクに一般的に使用される。
それぞれのタスクに対して、科学者は適切なモダリティを選択したり、目的の機器からのデータを活用する。
リモートセンシング基礎モデルに関する最近の研究は、大量のリモートセンシングデータに基づいてコンピュータビジョンモデルを事前訓練している。
これらの大規模モデルは特定のモダリティ(しばしば光学RGBやマルチスペクトルデータ)に焦点を当てる傾向がある。
多くの重要なアプリケーションに対して、これはアプリケーションモダリティと事前トレーニングデータとのミスマッチを導入します。
さらに、ファンデーションモデルのサイズが大きいため、各タスクの典型的な小さなデータセットに対して、高価で微調整が難しい。
このミスマッチを、モダリティの混合専門家に基づくリモートセンシング基盤モデルMAPEXで解決する。
MAPEXは、モダリティ固有の専門家を誘引する新しいモダリティ条件付きトークンルーティング機構によって、マルチモーダルリモートセンシングデータに事前訓練されている。
特定のタスクにモデルを適用するために,タスクのモダリティに特化している専門家のみを保持するモダリティ対応プルーニング手法を提案する。
これにより、効率の良いモダリティ特化モデルが得られ、興味のあるモダリティの微調整と展開が簡単になる。
我々はMAPEXを様々なリモートセンシングデータセット上で実験的に検証し、完全教師付きトレーニングや最先端のリモートセンシング基盤モデルと比較して高い性能を示す。
コードはhttps://github.com/HSG-AIML/MAPEXで入手できる。
関連論文リスト
- A Survey on Remote Sensing Foundation Models: From Vision to Multimodality [35.532200523631765]
リモートセンシングのための視覚とマルチモーダル基礎モデルは、インテリジェントな地理空間データ解釈能力を大幅に向上させた。
データタイプの多様性、大規模アノテートデータセットの必要性、マルチモーダル融合技術の複雑さは、これらのモデルの効果的なデプロイに重大な障害をもたらす。
本稿では、リモートセンシングのための最先端のビジョンモデルとマルチモーダル基礎モデルについて、アーキテクチャ、トレーニング方法、データセット、アプリケーションシナリオに焦点をあててレビューする。
論文 参考訳(メタデータ) (2025-03-28T01:57:35Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks [11.681342476516267]
汎用情報マッピングとインタラクションに基づく分散センシング基礎モデル(RS-DFM)を提案する。
このモデルは、複数のプラットフォームにわたるオンライン協調認識と、さまざまな下流タスクを実現することができる。
本稿では、高周波・低周波特徴情報を分離するデュアルブランチ情報圧縮モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-11T07:46:47Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。