論文の概要: ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks
- arxiv url: http://arxiv.org/abs/2505.23752v1
- Date: Thu, 29 May 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.080872
- Title: ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks
- Title(参考訳): ThinkGeo: リモートセンシングタスクのためのツール拡張エージェントの評価
- Authors: Akashah Shabbir, Muhammad Akhtar Munir, Akshay Dudhane, Muhammad Umer Sheikh, Muhammad Haris Khan, Paolo Fraccaro, Juan Bernabe Moreno, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
- 参考スコア(独自算出の注目度): 54.52092001110694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has enabled tool-augmented agents capable of solving complex real-world tasks through step-by-step reasoning. However, existing evaluations often focus on general-purpose or multimodal scenarios, leaving a gap in domain-specific benchmarks that assess tool-use capabilities in complex remote sensing use cases. We present ThinkGeo, an agentic benchmark designed to evaluate LLM-driven agents on remote sensing tasks via structured tool use and multi-step planning. Inspired by tool-interaction paradigms, ThinkGeo includes human-curated queries spanning a wide range of real-world applications such as urban planning, disaster assessment and change analysis, environmental monitoring, transportation analysis, aviation monitoring, recreational infrastructure, and industrial site analysis. Each query is grounded in satellite or aerial imagery and requires agents to reason through a diverse toolset. We implement a ReAct-style interaction loop and evaluate both open and closed-source LLMs (e.g., GPT-4o, Qwen2.5) on 436 structured agentic tasks. The benchmark reports both step-wise execution metrics and final answer correctness. Our analysis reveals notable disparities in tool accuracy and planning consistency across models. ThinkGeo provides the first extensive testbed for evaluating how tool-enabled LLMs handle spatial reasoning in remote sensing. Our code and dataset are publicly available
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、ステップバイステップ推論によって複雑な現実世界のタスクを解くことができるツール拡張エージェントが実現されている。
しかし、既存の評価は多くの場合、汎用またはマルチモーダルなシナリオに重点を置いており、複雑なリモートセンシングユースケースにおけるツール使用能力を評価するドメイン固有のベンチマークのギャップを残している。
我々は、構造化ツールの使用と多段階計画により、リモートセンシングタスクにおいてLLM駆動エージェントを評価するために設計されたエージェントベンチマークであるThinkGeoを提案する。
ThinkGeoは、ツール-インタラクションのパラダイムにヒントを得て、都市計画、災害アセスメントと変化分析、環境モニタリング、交通分析、航空監視、レクリエーションインフラ、産業現場分析など、幅広い現実世界のアプリケーションにまたがる人為的なクエリを含んでいる。
各クエリは衛星画像または空中画像でグラウンド化されており、さまざまなツールセットを通じてエージェントを推論する必要がある。
我々はReActスタイルの対話ループを実装し、436の構造化エージェントタスク上で、オープンおよびクローズドソース LLM (eg , GPT-4o, Qwen2.5) の評価を行う。
ベンチマークでは、ステップワイズ実行メトリクスと最終回答の正しさが報告されている。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
ThinkGeoは、リモートセンシングにおいて、ツール対応のLLMが空間推論をどのように扱うかを評価するための、初めての広範なテストベッドを提供する。
私たちのコードとデータセットは公開されています
関連論文リスト
- GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。