Fugu-MT 論文翻訳(概要): SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts

論文の概要: SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts

arxiv url: http://arxiv.org/abs/2512.02517v1
Date: Tue, 02 Dec 2025 08:17:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-03 21:04:45.78373
Title: SkyMoE: A Vision-Language Foundation Model for Enhancing Geospatial Interpretation with Mixture of Experts
Title（参考訳）: SkyMoE: 専門家の混在による地理空間解釈の促進のためのビジョンランゲージ基礎モデル
Authors: Jiaqi Liu, Ronghao Fu, Lang Sun, Haoran Liu, Xiao Yang, Weipeng Zhang, Xu Na, Zhuoran Duan, Bo Yang,
Abstract要約: マルチモーダル・マルチタスクリモートセンシングのための視覚言語モデルSkyMoEを提案する。 SkyMoEは、タスクと粒度を認識したルーティング命令を生成する適応ルータを使用している。 21の公開データセットの実験では、SkyMoEがタスク間で最先端のパフォーマンスを達成することが示されている。
参考スコア（独自算出の注目度）: 15.606672242024423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of large vision-language models (VLMs) has significantly enhanced the efficiency and flexibility of geospatial interpretation. However, general-purpose VLMs remain suboptimal for remote sensing (RS) tasks. Existing geospatial VLMs typically adopt a unified modeling strategy and struggle to differentiate between task types and interpretation granularities, limiting their ability to balance local detail perception and global contextual understanding. In this paper, we present SkyMoE, a Mixture-of-Experts (MoE) vision-language model tailored for multimodal, multi-task RS interpretation. SkyMoE employs an adaptive router that generates task- and granularity-aware routing instructions, enabling specialized large language model experts to handle diverse sub-tasks. To further promote expert decoupling and granularity sensitivity, we introduce a context-disentangled augmentation strategy that creates contrastive pairs between local and global features, guiding experts toward level-specific representation learning. We also construct MGRS-Bench, a comprehensive benchmark covering multiple RS interpretation tasks and granularity levels, to evaluate generalization in complex scenarios. Extensive experiments on 21 public datasets demonstrate that SkyMoE achieves state-of-the-art performance across tasks, validating its adaptability, scalability, and superior multi-granularity understanding in remote sensing.
Abstract（参考訳）: 大規模視覚言語モデル(VLM)の出現により、地理空間解釈の効率性と柔軟性が大幅に向上した。しかし、汎用VLMはリモートセンシング(RS)タスクに最適である。既存の地理空間的VLMは通常、統一されたモデリング戦略を採用し、タスクタイプと解釈の粒度の区別に苦慮し、局所的な詳細認識とグローバルな文脈理解のバランスをとる能力を制限する。本稿では,マルチモーダル・マルチタスクRS解釈に適したMixture-of-Experts (MoE)視覚言語モデルSkyMoEを提案する。 SkyMoEはタスクと粒度を意識したルーティング命令を生成する適応ルータを採用しており、様々なサブタスクを専門の大規模言語モデル専門家が扱えるようにしている。専門家の疎結合と粒度感度をさらに高めるため,局所的特徴とグローバル的特徴を対比的に組み合わせた文脈差拡大戦略を導入し,専門家をレベル固有の表現学習へと導く。また、複雑なシナリオにおける一般化を評価するために、複数のRS解釈タスクと粒度レベルをカバーする包括的なベンチマークMGRS-Benchを構築した。 21のパブリックデータセットに関する大規模な実験は、SkyMoEがタスク間の最先端のパフォーマンスを達成し、その適応性、スケーラビリティ、リモートセンシングにおける優れたマルチグラニュラリティ理解を検証することを実証している。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。地理空間推論のための統合ワークフローであるRemoteReasonerを提案する。 RemoteReasonerは、複数の粒度推論タスクにわたる最先端(SOTA)パフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-25T13:58:11Z)
Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文参考訳（メタデータ） (2025-06-27T02:31:37Z)
EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文参考訳（メタデータ） (2025-06-02T13:36:05Z)
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。 MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-03-01T09:25:23Z)
AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文参考訳（メタデータ） (2024-10-12T13:03:15Z)
Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。 GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:14Z)
X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。 X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文参考訳（メタデータ） (2024-07-18T18:39:54Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合 MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。 InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文参考訳（メタデータ） (2023-12-19T18:11:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。