論文の概要: Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
- arxiv url: http://arxiv.org/abs/2509.23141v1
- Date: Sat, 27 Sep 2025 06:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.065609
- Title: Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents
- Title(参考訳): 地球観測:エージェントで地球観測の完全な風景を解き放つ
- Authors: Peilin Feng, Zhutao Lv, Junyan Ye, Xiaolei Wang, Xinjie Huo, Jinhua Yu, Wanghan Xu, Wenlong Zhang, Lei Bai, Conghui He, Weijia Li,
- Abstract要約: Earth-Agentは、CPベースのツールエコシステム内でRGBとスペクトルEOデータを統一する最初のエージェントフレームワークである。
Earth-Agentは、物理パラメータの探索や観測による定量的時間解析のような複雑な科学的タスクをサポートする。
我々は,様々なLLM,汎用エージェントフレームワークとの比較,リモートセンシングベンチマークにおけるMLLMとの比較など,総合的な実験を行った。
- 参考スコア(独自算出の注目度): 49.3216026940601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Earth observation (EO) is essential for understanding the evolving states of the Earth system. Although recent MLLMs have advanced EO research, they still lack the capability to tackle complex tasks that require multi-step reasoning and the use of domain-specific tools. Agent-based methods offer a promising direction, but current attempts remain in their infancy, confined to RGB perception, shallow reasoning, and lacking systematic evaluation protocols. To overcome these limitations, we introduce Earth-Agent, the first agentic framework that unifies RGB and spectral EO data within an MCP-based tool ecosystem, enabling cross-modal, multi-step, and quantitative spatiotemporal reasoning beyond pretrained MLLMs. Earth-Agent supports complex scientific tasks such as geophysical parameter retrieval and quantitative spatiotemporal analysis by dynamically invoking expert tools and models across modalities. To support comprehensive evaluation, we further propose Earth-Bench, a benchmark of 248 expert-curated tasks with 13,729 images, spanning spectrum, products and RGB modalities, and equipped with a dual-level evaluation protocol that assesses both reasoning trajectories and final outcomes. We conduct comprehensive experiments varying different LLM backbones, comparisons with general agent frameworks, and comparisons with MLLMs on remote sensing benchmarks, demonstrating both the effectiveness and potential of Earth-Agent. Earth-Agent establishes a new paradigm for EO analysis, moving the field toward scientifically grounded, next-generation applications of LLMs in Earth observation. Our code and dataset will be publicly released.
- Abstract(参考訳): 地球観測(EO)は、地球系の進化状態を理解するために不可欠である。
最近のMLLMは高度なEO研究を行っているが、多段階推論とドメイン固有のツールの使用を必要とする複雑なタスクに対処する能力はいまだに欠けている。
エージェントベースの手法は有望な方向を提供するが、現在の試みは初期段階にあり、RGBの認識、浅い推論、体系的な評価プロトコルの欠如に限られている。
これらの制限を克服するために、我々は、MPPベースのツールエコシステム内でRGBとスペクトルEOデータを統一する最初のエージェントフレームワークであるEarth-Agentを導入し、事前訓練されたMLLMを超えて、クロスモーダル、マルチステップ、量的時空間推論を可能にする。
Earth-Agentは、物理パラメータの探索や量的時空間分析といった複雑な科学的タスクをサポートする。
包括的評価を支援するため,13,729個の画像とスペクトル,製品,RGBモダリティを対象とする248個の専門家計算タスクのベンチマークであるEarth-Benchを提案する。
我々は,様々なLDMバックボーン,一般的なエージェントフレームワークとの比較,リモートセンシングベンチマークにおけるMLLMとの比較などの総合的な実験を行い,地球-エージェントの有効性と可能性の両立を実証した。
Earth-AgentはEO分析の新しいパラダイムを確立し、地球観測におけるLLMの科学的基盤を持つ次世代の応用に向けて分野を移動させる。
コードとデータセットは公開されます。
関連論文リスト
- Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System [1.3052252174353483]
体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
論文 参考訳(メタデータ) (2025-09-21T21:17:23Z) - Multi-Agent Reinforcement Learning for Autonomous Multi-Satellite Earth Observation: A Realistic Case Study [9.798174763420896]
低軌道(LEO)衛星の指数的な成長は、地球観測(EO)ミッションに革命をもたらした。
従来の最適化アプローチは、動的EOミッションのリアルタイムな意思決定要求を処理するのに苦労する。
RLをベースとした自律型EOミッション計画について,単一衛星操作をモデル化し,マルチ衛星コンステレーションに拡張することで検討する。
論文 参考訳(メタデータ) (2025-06-18T07:42:11Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues [46.601134018876955]
本研究では,地球観測(EO)データに特化して設計された対話型アシスタントであるEarthDialを紹介する。
EarthDialはマルチスペクトル、マルチテンポラル、マルチ解像度の画像をサポートし、幅広いリモートセンシングタスクを可能にする。
44の下流データセットに対する実験結果から、EarthDialは既存のジェネリックモデルやドメイン固有モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。