論文の概要: OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents
- arxiv url: http://arxiv.org/abs/2602.17665v1
- Date: Thu, 19 Feb 2026 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.424991
- Title: OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents
- Title(参考訳): OpenEarthAgent: ツール拡張された地理空間エージェントのための統一フレームワーク
- Authors: Akashah Shabbir, Muhammad Umer Sheikh, Muhammad Akhtar Munir, Hiyam Debary, Mustansar Fiaz, Muhammad Zaigham Zaheer, Paolo Fraccaro, Fahad Shahbaz Khan, Muhammad Haris Khan, Xiao Xiang Zhu, Salman Khan,
- Abstract要約: 本稿では,衛星画像,自然言語クエリ,詳細な推論トレースに基づいて学習したツール拡張された地理空間エージェントを開発するための統一的なフレームワークを提案する。
トレーニングパイプラインは、構造化推論軌道上の教師付き微調整に依存し、モデルを検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
- 参考スコア(独自算出の注目度): 68.85365034738534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in multimodal reasoning has enabled agents that can interpret imagery, connect it with language, and perform structured analytical tasks. Extending such capabilities to the remote sensing domain remains challenging, as models must reason over spatial scale, geographic structures, and multispectral indices while maintaining coherent multi-step logic. To bridge this gap, OpenEarthAgent introduces a unified framework for developing tool-augmented geospatial agents trained on satellite imagery, natural-language queries, and detailed reasoning traces. The training pipeline relies on supervised fine-tuning over structured reasoning trajectories, aligning the model with verified multistep tool interactions across diverse analytical contexts. The accompanying corpus comprises 14,538 training and 1,169 evaluation instances, with more than 100K reasoning steps in the training split and over 7K reasoning steps in the evaluation split. It spans urban, environmental, disaster, and infrastructure domains, and incorporates GIS-based operations alongside index analyses such as NDVI, NBR, and NDBI. Grounded in explicit reasoning traces, the learned agent demonstrates structured reasoning, stable spatial understanding, and interpretable behaviour through tool-driven geospatial interactions across diverse conditions. We report consistent improvements over a strong baseline and competitive performance relative to recent open and closed-source models.
- Abstract(参考訳): マルチモーダル推論の最近の進歩により、画像の解釈、言語との接続、構造化された分析タスクの実行が可能なエージェントが実現された。
このような機能をリモートセンシング領域に拡張することは、コヒーレントなマルチステップ論理を維持しながら、空間スケール、地理的構造、マルチスペクトル指標をモデル化する必要があるため、依然として困難である。
このギャップを埋めるため、OpenEarthAgentは、衛星画像、自然言語クエリ、詳細な推論トレースに基づいてトレーニングされたツール拡張された地理空間エージェントを開発するための統一的なフレームワークを導入した。
トレーニングパイプラインは、構造化推論軌跡に対する教師付き微調整に依存し、モデルをさまざまな分析的コンテキストにわたって検証された多段階ツールの相互作用と整合させる。
付随コーパスは、14,538のトレーニングと1,169の評価インスタンスから構成され、トレーニングスプリットでは100K以上の推論ステップ、評価スプリットでは7K以上の推論ステップがある。
都市、環境、災害、インフラの領域にまたがり、NDVI、NBR、NDBIなどの指標分析と共にGISベースのオペレーションを組み込んでいる。
学習エージェントは、明示的な推論トレースに基づいて、構造的推論、安定した空間的理解、多様条件にわたるツール駆動の地理空間的相互作用を通しての解釈行動を示す。
最近のオープンソースモデルやクローズドソースモデルと比較して,強力なベースラインと競争性能に対して一貫した改善が報告されている。
関連論文リスト
- Agentic AI in Remote Sensing: Foundations, Taxonomy, and Emerging Systems [9.388162021920206]
この調査は、リモートセンシングにおけるエージェントAIの総合的なレビューである。
単一エージェントのコピロとマルチエージェントのシステムを区別した統合分類を導入する。
評価を画素レベルの精度から軌跡認識推論の正確性に移行する新しいベンチマークをレビューする。
論文 参考訳(メタデータ) (2026-01-05T08:34:17Z) - Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - ARCTraj: A Dataset and Benchmark of Human Reasoning Trajectories for Abstract Problem Solving [5.7688835899861]
本稿では、複雑な視覚的タスクを通して人間の推論をモデル化するためのデータセットと方法論のフレームワークであるARCTrajを提案する。
ARCTrajは、人間が入力を出力に反復的に変換する方法をキャプチャする、時間的に順序付けられたオブジェクトレベルのアクションを記録することでギャップに対処する。
さらに、データ収集、アクション抽象化、マルコフ決定プロセス(MDP)の定式化、下流学習を含む統一推論パイプラインを定義する。
論文 参考訳(メタデータ) (2025-11-14T08:52:53Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。