論文の概要: SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts
- arxiv url: http://arxiv.org/abs/2512.02517v1
- Date: Tue, 02 Dec 2025 08:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.78373
- Title: SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts
- Title(参考訳): SkyMoE: 専門家の混在による地理空間解釈の促進のためのビジョンランゲージ基礎モデル
- Authors: Jiaqi Liu, Ronghao Fu, Lang Sun, Haoran Liu, Xiao Yang, Weipeng Zhang, Xu Na, Zhuoran Duan, Bo Yang,
- Abstract要約: マルチモーダル・マルチタスクリモートセンシングのための視覚言語モデルSkyMoEを提案する。
SkyMoEは、タスクと粒度を認識したルーティング命令を生成する適応ルータを使用している。
21の公開データセットの実験では、SkyMoEがタスク間で最先端のパフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 15.606672242024423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large vision-language models (VLMs) has significantly enhanced the efficiency and flexibility of geospatial interpretation. However, general-purpose VLMs remain suboptimal for remote sensing (RS) tasks. Existing geospatial VLMs typically adopt a unified modeling strategy and struggle to differentiate between task types and interpretation granularities, limiting their ability to balance local detail perception and global contextual understanding. In this paper, we present SkyMoE, a Mixture-of-Experts (MoE) vision-language model tailored for multimodal, multi-task RS interpretation. SkyMoE employs an adaptive router that generates task- and granularity-aware routing instructions, enabling specialized large language model experts to handle diverse sub-tasks. To further promote expert decoupling and granularity sensitivity, we introduce a context-disentangled augmentation strategy that creates contrastive pairs between local and global features, guiding experts toward level-specific representation learning. We also construct MGRS-Bench, a comprehensive benchmark covering multiple RS interpretation tasks and granularity levels, to evaluate generalization in complex scenarios. Extensive experiments on 21 public datasets demonstrate that SkyMoE achieves state-of-the-art performance across tasks, validating its adaptability, scalability, and superior multi-granularity understanding in remote sensing.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の出現により、地理空間解釈の効率性と柔軟性が大幅に向上した。
しかし、汎用VLMはリモートセンシング(RS)タスクに最適である。
既存の地理空間的VLMは通常、統一されたモデリング戦略を採用し、タスクタイプと解釈の粒度の区別に苦慮し、局所的な詳細認識とグローバルな文脈理解のバランスをとる能力を制限する。
本稿では,マルチモーダル・マルチタスクRS解釈に適したMixture-of-Experts (MoE)視覚言語モデルSkyMoEを提案する。
SkyMoEはタスクと粒度を意識したルーティング命令を生成する適応ルータを採用しており、様々なサブタスクを専門の大規模言語モデル専門家が扱えるようにしている。
専門家の疎結合と粒度感度をさらに高めるため,局所的特徴とグローバル的特徴を対比的に組み合わせた文脈差拡大戦略を導入し,専門家をレベル固有の表現学習へと導く。
また、複雑なシナリオにおける一般化を評価するために、複数のRS解釈タスクと粒度レベルをカバーする包括的なベンチマークMGRS-Benchを構築した。
21のパブリックデータセットに関する大規模な実験は、SkyMoEがタスク間の最先端のパフォーマンスを達成し、その適応性、スケーラビリティ、リモートセンシングにおける優れたマルチグラニュラリティ理解を検証することを実証している。
関連論文リスト
- RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
地理空間推論のための統合ワークフローであるRemoteReasonerを提案する。
RemoteReasonerは、複数の粒度推論タスクにわたる最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-25T13:58:11Z) - Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。
MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。
提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-01T09:25:23Z) - AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-12T13:03:15Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。