論文の概要: GeoMMBench and GeoMMAgent: Toward Expert-Level Multimodal Intelligence in Geoscience and Remote Sensing
- arxiv url: http://arxiv.org/abs/2604.08896v1
- Date: Fri, 10 Apr 2026 02:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.656085
- Title: GeoMMBench and GeoMMAgent: Toward Expert-Level Multimodal Intelligence in Geoscience and Remote Sensing
- Title(参考訳): GeoMMBenchとGeoMMAgent:地球科学とリモートセンシングにおけるエキスパートレベルマルチモーダルインテリジェンスを目指して
- Authors: Aoran Xiao, Shihao Cheng, Yonghao Xu, Yexian Ren, Hongruixuan Chen, Naoto Yokoya,
- Abstract要約: GeoMMBenchは、様々なRSの規律、センサー、タスクをカバーする総合的なマルチモーダル質問答えベンチマークである。
GeoMMBenchを用いて、36のオープンソースおよびプロプライエタリな大規模言語モデルを評価し、ドメイン知識の体系的な欠陥を明らかにする。
検索,知覚,推論を戦略的に統合するマルチエージェントフレームワークであるGeoMMAgentを,ドメイン固有のRSモデルとツールを通じて提案する。
- 参考スコア(独自算出の注目度): 26.030446937726893
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have accelerated progress in domain-oriented AI, yet their development in geoscience and remote sensing (RS) remains constrained by distinctive challenges: wide-ranging disciplinary knowledge, heterogeneous sensor modalities, and a fragmented spectrum of tasks. To bridge these gaps, we introduce GeoMMBench, a comprehensive multimodal question-answering benchmark covering diverse RS disciplines, sensors, and tasks, enabling broader and more rigorous evaluation than prior benchmarks. Using GeoMMBench, we assess 36 open-source and proprietary large language models, uncovering systematic deficiencies in domain knowledge, perceptual grounding, and reasoning--capabilities essential for expert-level geospatial interpretation. Beyond evaluation, we propose GeoMMAgent, a multi-agent framework that strategically integrates retrieval, perception, and reasoning through domain-specific RS models and tools. Extensive experimental results demonstrate that GeoMMAgent significantly outperforms standalone LLMs, underscoring the importance of tool-augmented agents for dynamically tackling complex geoscience and RS challenges.
- Abstract(参考訳): MLLM(Multimodal large language model)の最近の進歩は、ドメイン指向AIの進歩を加速しているが、地球科学とリモートセンシング(RS)の発展は、広範囲のディシプリナリー知識、異質なセンサーモダリティ、タスクの断片化といった、独特な課題によって制約されている。
これらのギャップを埋めるために、GeoMMBenchは様々なRSの規律、センサー、タスクを網羅した総合的なマルチモーダル質問答えベンチマークであり、以前のベンチマークよりも広くより厳密な評価を可能にする。
GeoMMBenchを用いて、36のオープンソースおよびプロプライエタリな大規模言語モデルを評価し、専門家レベルの地理空間解釈に不可欠なドメイン知識、知覚的基盤、推論能力の体系的欠陥を明らかにする。
評価以外にも,ドメイン固有のRSモデルやツールを通じて,検索,知覚,推論を戦略的に統合するマルチエージェントフレームワークであるGeoMMAgentを提案する。
大規模実験の結果,GeoMMAgentは単独のLSMよりも優れており,複雑な地球科学とRSの課題に動的に取り組むためのツール強化エージェントの重要性が強調された。
関連論文リスト
- OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents [68.85365034738534]
本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
論文 参考訳(メタデータ) (2026-02-19T18:59:54Z) - Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents [49.3216026940601]
地球観測は、地球系の状態を理解するために不可欠である。
近年のMLLMは高度なEO研究を行っているが、多段階推論を必要とする複雑なタスクに対処する能力は乏しい。
我々は,MPPベースのツールエコシステム内でRGBとスペクトルEOデータを統一する最初のエージェントフレームワークであるEarth-Agentを紹介する。
論文 参考訳(メタデータ) (2025-09-27T06:04:28Z) - GeoEvolve: Automating Geospatial Model Discovery via Multi-Agent Large Language Models [49.257706111340134]
進化的探索と地理空間的ドメイン知識を結合した多エージェントLLMフレームワークであるGeoEvolveを紹介する。
本研究では,空間的不確実性と空間的不確実性という2つの基本的・古典的課題について評価する。
空間誤差(RMSE)を13-21%削減し、不確実性推定性能を17%向上させる。
論文 参考訳(メタデータ) (2025-09-25T21:03:57Z) - CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。
CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。
我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文 参考訳(メタデータ) (2025-07-07T16:33:42Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Multi-Agent Geospatial Copilots for Remote Sensing Workflows [1.8241060496411214]
GeoLLM-Squadがリモートセンシング(RS)に新しいマルチエージェントパラダイムを導入
モノリシックな大規模言語モデル(LLM)に依存している既存の単一エージェントアプローチとは異なり、GeoLLM-Squadは地理的タスク解決からエージェントオーケストレーションを分離する。
我々の研究は、都市モニタリング、森林保護、気候分析、農業研究にまたがる多様なアプリケーションのモジュラー統合を可能にする。
論文 参考訳(メタデータ) (2025-01-27T17:54:31Z) - MineAgent: Towards Remote-Sensing Mineral Exploration with Multimodal Large Language Models [8.668070469135936]
MineAgentはマルチイメージ推論と空間スペクトル統合のためのフレームワークである。
MineBenchは、ドメイン固有の鉱物探査タスクでMLLMを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T07:08:14Z) - An LLM Agent for Automatic Geospatial Data Analysis [5.842462214442362]
大規模言語モデル(LLM)は、データサイエンスコード生成タスクで使われている。
複雑なデータ構造と空間的制約を組み込むのが困難であるため,空間空間データ処理への応用は困難である。
ジオアジェント(GeoAgent)は,LLMが地理空間データ処理をより効率的に処理できるように設計された対話型フレームワークである。
論文 参考訳(メタデータ) (2024-10-24T14:47:25Z) - Foundation Models for Remote Sensing and Earth Observation: A Survey [101.77425018347557]
本調査は、リモートセンシング基礎モデル(RSFM)の新しい分野を体系的にレビューする。
モチベーションと背景の概要から始まり、続いて基本概念が導入された。
我々はこれらのモデルを公開データセットと比較し、既存の課題について議論し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2024-10-22T01:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。