Fugu-MT 論文翻訳(概要): AgroTools: A Benchmark for Tool-Augmented Multimodal Agents in Agriculture

論文の概要: AgroTools: A Benchmark for Tool-Augmented Multimodal Agents in Agriculture

arxiv url: http://arxiv.org/abs/2605.22366v1
Date: Thu, 21 May 2026 11:58:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.242211
Title: AgroTools: A Benchmark for Tool-Augmented Multimodal Agents in Agriculture
Title（参考訳）: AgroTools: 農業におけるツール強化マルチモーダルエージェントのベンチマーク
Authors: Zi Ye, Yibin Wen, Xiaoya Fan, Xinyu Zhang, Jing Wu, Kun Zeng, Zurong Mai, Jiarui Zhang, Bohan Shi, Juepeng Zheng, Jianxi Huang, Yutong Lu, Haohuan Fu,
Abstract要約: AgroToolsは、農業におけるツール強化マルチモーダルエージェントを評価するためのベンチマークである。 AgroToolsには539の質問応答インスタンスと1,097の異種農業画像が組み合わされている。その結果、現在のモデルでは、農業用ツールの使用状況がそれほど信頼できないことが判明した。
参考スコア（独自算出の注目度）: 26.271517444177363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agricultural decision-making increasingly requires multimodal systems that can transform visual observations into reliable, executable actions. However, existing agricultural multimodal benchmarks mainly evaluate final-answer correctness and provide limited support for assessing whether models can use external tools to complete precision-sensitive workflows. In this paper, we introduce AgroTools, a benchmark for evaluating tool-augmented multimodal agents in agriculture. AgroTools contains 539 question-answer instances paired with 1,097 heterogeneous agricultural images, spanning five task families and an executable environment of 14 agricultural tools. Each query is annotated with structured tool-use traces, enabling a dual-view evaluation of both process-level execution quality and outcome-level task success. We benchmark 9 open-source and 4 closed-source multimodal large language models on AgroTools. Results show that current models remain far from reliable in agricultural tool-use settings, with clear bottlenecks in tool planning, argument generation, execution recovery, and final-answer synthesis. We hope AgroTools will support future research on multimodal agents for high-precision agricultural applications. The benchmark and evaluation are available at https://huggingface.co/datasets/AgroTools/AgroTools.
Abstract（参考訳）: 農業の意思決定には、視覚的な観察を信頼性のある実行可能な行動に変換するマルチモーダルシステムが必要である。しかし、既存の農業マルチモーダルベンチマークは主に最終回答の正しさを評価し、モデルが外部ツールを使用して精度の高いワークフローを完了できるかを評価するための限定的なサポートを提供する。本稿では,農業におけるツール強化マルチモーダルエージェントの評価ベンチマークであるAgroToolsを紹介する。 AgroToolsには539の質問応答インスタンスと1,097の異種農業画像が組み合わされ、5つのタスクファミリーと14の農業ツールの実行可能な環境にまたがっている。各クエリには構造化ツール使用トレースがアノテートされ、プロセスレベルの実行品質と結果レベルのタスク成功の両面的な評価が可能になる。我々は、AgroTools上で9つのオープンソースと4つのクローズドソースのマルチモーダルな大規模言語モデルをベンチマークした。その結果、現在のモデルは、ツールプランニング、引数生成、実行回復、ファイナル・アンサー・シンセサイザーにおいて明らかなボトルネックを伴って、農業用ツールの使用設定において信頼性に程遠いことが判明した。 AgroToolsは今後、高精度農業利用のためのマルチモーダルエージェントの研究を支援していくことを願っている。ベンチマークと評価はhttps://huggingface.co/datasets/AgroTools/AgroToolsで公開されている。

関連論文リスト

AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding [13.665861251747144]
我々は、数千の農業階級にまたがる幅広い知識を提示し、説明付きの詳細な農業評価を提供する専門的なMLLMであるAgriChatを紹介する。その結果、視覚的詳細をWebで検証された知識と組み合わせて保存することは、堅牢で信頼性の高い農業用AIへの信頼できる経路であることがわかった。
論文参考訳（メタデータ） (2026-03-14T11:49:05Z)
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents [17.904008870689964]
我々は,Pythonの実行環境であるAgriWorldを紹介し,フィールドパーセル上のクエリ,リモートセンシング時系列分析,作物の成長シミュレーション,タスク固有の予測器(収量,ストレス,病気リスクなど)について,統一的なツールを公開している。この環境上では,複数ターンのAgroReflectiveエージェントを設計し,コードを反復的に書き,実行結果を観察し,実行-観測-再定義ループを通じて解析を洗練する。
論文参考訳（メタデータ） (2026-02-17T03:12:57Z)
AgriDoctor: A Multimodal Intelligent Assistant for Agriculture [45.77373971125537]
AgriDoctorは、インテリジェントな作物病診断と農業知識の相互作用のために設計されたモジュラーでマルチモーダルなフレームワークである。効果的なトレーニングと評価を容易にするために,400000の注釈付き疾患画像,831のエキスパートによる知識エントリ,30000のバイリンガルプロンプトによるインテント駆動ツール選択のベンチマークであるAgriMMを構築した。実験により、AgriMMで訓練されたAgriDoctorは、細粒度の農業作業において最先端のLVLMを著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-09-21T11:51:57Z)
AgroBench: Vision-Language Model Benchmark in Agriculture [25.52955831089068]
AgroBenchは、視覚言語モデル(VLM)を7つの農業トピックにわたって評価するためのベンチマークである。私たちのAgroBenchは、203の作物カテゴリと682の病気カテゴリを含む最先端のカテゴリをカバーし、VLM能力を徹底的に評価しています。
論文参考訳（メタデータ） (2025-07-28T04:58:29Z)
Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind [16.96145027280737]
我々は農業リモートセンシング(RS)のベンチマークであるAgroMindを紹介する。 AgroMindは、空間知覚、オブジェクト理解、シーン理解、シーン推論の4つのタスクディメンションをカバーしている。 AgroMind上で20のオープンソースLMMと4つのクローズドソースモデルを評価する。
論文参考訳（メタデータ） (2025-05-18T02:45:19Z)
Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making [32.62816270192696]
現代の農業は生産効率を最適化し、持続可能な開発を達成するという2つの課題に直面している。これらの課題に対処するために,本研究では,革新的なtextbfMultimodal textbfAgricultural textbfAgent textbfArchitecture (textbfMA3)を提案する。本研究では、分類、検出、視覚質問応答(VQA)、ツール選択、エージェント評価の5つの主要なタスクを含むマルチモーダル農業エージェントデータセットを構築した。
論文参考訳（メタデータ） (2025-04-07T07:32:41Z)
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use [51.43211624452462]
995のユーザクエリと3,912の関連ツールからなるデータセットであるToolHopを提示する。 ToolHopは、多様なクエリ、意味のある相互依存性、ローカル実行可能なツール、詳細なフィードバック、検証可能な回答を保証する。 5つのモデルファミリーにまたがる14のLSMを評価し、マルチホップツールの使用シナリオを扱う上で重要な課題を明らかにした。
論文参考訳（メタデータ） (2025-01-05T11:06:55Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文参考訳（メタデータ） (2024-03-27T08:42:47Z)
What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。 LMが使用する外部プログラムとしてツールを統一的に定義する。各種ツールの効率を実証的に検討した。
論文参考訳（メタデータ） (2024-03-18T17:20:07Z)
Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文参考訳（メタデータ） (2023-04-03T14:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。