論文の概要: ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks
- arxiv url: http://arxiv.org/abs/2505.23752v1
- Date: Thu, 29 May 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.080872
- Title: ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks
- Title(参考訳): ThinkGeo: リモートセンシングタスクのためのツール拡張エージェントの評価
- Authors: Akashah Shabbir, Muhammad Akhtar Munir, Akshay Dudhane, Muhammad Umer Sheikh, Muhammad Haris Khan, Paolo Fraccaro, Juan Bernabe Moreno, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
- 参考スコア(独自算出の注目度): 54.52092001110694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has enabled tool-augmented agents capable of solving complex real-world tasks through step-by-step reasoning. However, existing evaluations often focus on general-purpose or multimodal scenarios, leaving a gap in domain-specific benchmarks that assess tool-use capabilities in complex remote sensing use cases. We present ThinkGeo, an agentic benchmark designed to evaluate LLM-driven agents on remote sensing tasks via structured tool use and multi-step planning. Inspired by tool-interaction paradigms, ThinkGeo includes human-curated queries spanning a wide range of real-world applications such as urban planning, disaster assessment and change analysis, environmental monitoring, transportation analysis, aviation monitoring, recreational infrastructure, and industrial site analysis. Each query is grounded in satellite or aerial imagery and requires agents to reason through a diverse toolset. We implement a ReAct-style interaction loop and evaluate both open and closed-source LLMs (e.g., GPT-4o, Qwen2.5) on 436 structured agentic tasks. The benchmark reports both step-wise execution metrics and final answer correctness. Our analysis reveals notable disparities in tool accuracy and planning consistency across models. ThinkGeo provides the first extensive testbed for evaluating how tool-enabled LLMs handle spatial reasoning in remote sensing. Our code and dataset are publicly available
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、ステップバイステップ推論によって複雑な現実世界のタスクを解くことができるツール拡張エージェントが実現されている。
しかし、既存の評価は多くの場合、汎用またはマルチモーダルなシナリオに重点を置いており、複雑なリモートセンシングユースケースにおけるツール使用能力を評価するドメイン固有のベンチマークのギャップを残している。
我々は、構造化ツールの使用と多段階計画により、リモートセンシングタスクにおいてLLM駆動エージェントを評価するために設計されたエージェントベンチマークであるThinkGeoを提案する。
ThinkGeoは、ツール-インタラクションのパラダイムにヒントを得て、都市計画、災害アセスメントと変化分析、環境モニタリング、交通分析、航空監視、レクリエーションインフラ、産業現場分析など、幅広い現実世界のアプリケーションにまたがる人為的なクエリを含んでいる。
各クエリは衛星画像または空中画像でグラウンド化されており、さまざまなツールセットを通じてエージェントを推論する必要がある。
我々はReActスタイルの対話ループを実装し、436の構造化エージェントタスク上で、オープンおよびクローズドソース LLM (eg , GPT-4o, Qwen2.5) の評価を行う。
ベンチマークでは、ステップワイズ実行メトリクスと最終回答の正しさが報告されている。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
ThinkGeoは、リモートセンシングにおいて、ツール対応のLLMが空間推論をどのように扱うかを評価するための、初めての広範なテストベッドを提供する。
私たちのコードとデータセットは公開されています
関連論文リスト
- ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots [1.8434042562191815]
GeoLLM-Engineは、リモートセンシングプラットフォーム上でアナリストが日常的に実行する複雑なタスクを備えた、ツール拡張されたエージェントのための環境である。
我々は100GPT-4-Turboノードにまたがる巨大な並列エンジンを活用し、50万以上の多様なマルチツールタスクと1100万の衛星画像にスケールします。
論文 参考訳(メタデータ) (2024-04-23T20:23:37Z) - AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。
AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。
オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。
環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文 参考訳(メタデータ) (2024-03-26T17:54:15Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。