論文の概要: Evaluation and Benchmarking of LLM Agents: A Survey
- arxiv url: http://arxiv.org/abs/2507.21504v1
- Date: Tue, 29 Jul 2025 04:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.666771
- Title: Evaluation and Benchmarking of LLM Agents: A Survey
- Title(参考訳): LLMエージェントの評価とベンチマーク
- Authors: Mahmoud Mohammadi, Yipeng Li, Jane Lo, Wendy Yip,
- Abstract要約: 本調査では,既存の作業を評価目的に沿って整理する2次元分類法を紹介する。
データへのロールベースのアクセスなど、企業固有の課題を強調します。
また、総合的で、より現実的で、スケーラブルな評価を含む、将来の研究の方向性を特定します。
- 参考スコア(独自算出の注目度): 2.75311233296471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of LLM-based agents has opened new frontiers in AI applications, yet evaluating these agents remains a complex and underdeveloped area. This survey provides an in-depth overview of the emerging field of LLM agent evaluation, introducing a two-dimensional taxonomy that organizes existing work along (1) evaluation objectives -- what to evaluate, such as agent behavior, capabilities, reliability, and safety -- and (2) evaluation process -- how to evaluate, including interaction modes, datasets and benchmarks, metric computation methods, and tooling. In addition to taxonomy, we highlight enterprise-specific challenges, such as role-based access to data, the need for reliability guarantees, dynamic and long-horizon interactions, and compliance, which are often overlooked in current research. We also identify future research directions, including holistic, more realistic, and scalable evaluation. This work aims to bring clarity to the fragmented landscape of agent evaluation and provide a framework for systematic assessment, enabling researchers and practitioners to evaluate LLM agents for real-world deployment.
- Abstract(参考訳): LLMベースのエージェントの台頭は、AIアプリケーションに新たなフロンティアを開拓したが、これらのエージェントの評価はまだ複雑で未発達の領域のままである。
本調査では, LLMエージェント評価の新たな分野について,(1)評価目標(エージェントの挙動,能力,信頼性,安全性など)と(2)評価プロセス(インタラクションモード,データセットとベンチマーク,メトリック計算方法,ツーリングなど)に沿って,既存の作業の組織化を行う2次元分類を導入して,詳細な概要を述べる。
分類以外にも,データへのロールベースのアクセス,信頼性保証の必要性,動的・長期的相互作用,コンプライアンスなど,企業固有の課題が注目されている。
また、総合的で、より現実的で、スケーラブルな評価を含む、将来の研究の方向性を特定します。
本研究は, エージェント評価の断片化された景観に明瞭さをもたらすことを目的としており, 研究者や実践者が実世界の展開のためにLLMエージェントを評価することができるような, システム評価の枠組みを提供する。
関連論文リスト
- The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。
LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。
本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Survey on Evaluation of LLM-based Agents [28.91672694491855]
LLMベースのエージェントの出現は、AIのパラダイムシフトを表している。
本稿では,これらのエージェントに対する評価手法に関する総合的な調査を初めて実施する。
論文 参考訳(メタデータ) (2025-03-20T17:59:23Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。