論文の概要: Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation
- arxiv url: http://arxiv.org/abs/2510.24358v1
- Date: Tue, 28 Oct 2025 12:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.110482
- Title: Automatically Benchmarking LLM Code Agents through Agent-Driven Annotation and Evaluation
- Title(参考訳): エージェント駆動アノテーションと評価によるLLMコードエージェントの自動ベンチマーク
- Authors: Lingyue Fu, Bolun Zhang, Hao Guan, Yaoming Zhu, Lin Qiu, Weiwen Liu, Xuezhi Cao, Xunliang Cai, Weinan Zhang, Yong Yu,
- Abstract要約: PRDBenchは、20のドメインにわたる50の現実のPythonプロジェクトからなる、新しいベンチマークである。それぞれに構造化された製品要求文書(PRD)要件、包括的な評価基準、リファレンス実装がある。
我々はエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)パラダイムを用いてエージェントの出力を評価する。
- 参考スコア(独自算出の注目度): 47.85891728056131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in code agents have enabled automated software development at the project level, supported by large language models (LLMs) and widely adopted tools. However, existing benchmarks for code agent evaluation face two major limitations: high annotation cost and expertise requirements, and rigid evaluation metrics that rely primarily on unit tests. To address these challenges, we propose an agent-driven benchmark construction pipeline that leverages human supervision to efficiently generate diverse and challenging project-level tasks. Based on this approach, we introduce PRDBench, a novel benchmark comprising 50 real-world Python projects across 20 domains, each with structured Product Requirement Document (PRD) requirements, comprehensive evaluation criteria, and reference implementations. PRDBench features rich data sources, high task complexity, and flexible metrics. We further employ an Agent-as-a-Judge paradigm to score agent outputs, enabling the evaluation of various test types beyond unit tests. Extensive experiments on PRDBench demonstrate its effectiveness in assessing the capabilities of both code agents and evaluation agents, providing a scalable and robust framework for annotation and evaluation.
- Abstract(参考訳): コードエージェントの最近の進歩は、大規模言語モデル(LLM)と広く採用されているツールによってサポートされている、プロジェクトレベルでのソフトウェア開発の自動化を可能にしている。
しかし、コードエージェント評価のための既存のベンチマークは、高いアノテーションコストと専門知識要件、そして主に単体テストに依存する厳格な評価指標の2つの大きな制限に直面しています。
これらの課題に対処するために,人間の監督を利用して多種多様なプロジェクトレベルのタスクを効率的に生成するエージェント駆動型ベンチマーク構築パイプラインを提案する。
PRDBenchは、20のドメインにわたる50の現実のPythonプロジェクトからなる新しいベンチマークであり、それぞれに構造化された製品要求文書(PRD)要件、包括的な評価基準、参照実装がある。
PRDBenchは、豊富なデータソース、高いタスク複雑性、柔軟なメトリクスを備えている。
さらにエージェント・アズ・ア・ジャッジ(Agen-as-a-Judge)パラダイムを用いてエージェントの出力をスコアし、ユニットテスト以外の様々なテストタイプの評価を可能にする。
PRDBenchに関する大規模な実験は、コードエージェントと評価エージェントの両方の機能を評価する上での有効性を示し、アノテーションと評価のためのスケーラブルで堅牢なフレームワークを提供する。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。