論文の概要: ProcBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
- arxiv url: http://arxiv.org/abs/2605.20251v1
- Date: Mon, 18 May 2026 08:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.238011
- Title: ProcBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
- Title(参考訳): ProcBench: LLM符号化剤のプロセスレベル欠陥評価と制御保存
- Authors: Jiawei He, Jie Jia, Chenbo Liu, Chaoyi Xue, Yapeng Song, Xikai Yang, Dong Sun,
- Abstract要約: ProcBenchは、プロセス欠陥と制御保存を通じてコーディングエージェントトラジェクトリを評価するための、ベンチマーク指向のフレームワークである。
アノテーション付き200トラジェクトリでProcBenchをインスタンス化し,AndroidBench, TerminalBench, SWE-bench-Verifiedという3つのコーディングエージェントベンチマークに適用する。
- 参考スコア(独自算出の注目度): 4.908588441456849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for LLM coding agents mainly evaluate final outcomes, such as task completion, compilation success, and test pass rates. While these metrics are useful for measuring end-task capability, they provide limited visibility into how an execution unfolds and often miss recurrent process-level failures that arise during multi-step operation. We present ProcBench, a benchmark-oriented framework for evaluating coding-agent trajectories through process defects and control preservation. ProcBench organizes execution failures into a reusable ontology, standardizes heterogeneous logs into a unified trajectory representation, and reports calibrated risk-based scorecards instead of relying only on final outcomes. We instantiate ProcBench on an annotated set of 200 trajectories and apply it across three coding-agent benchmarks: AndroidBench, TerminalBench, and SWE-bench-Verified. Our results suggest that ProcBench can be instantiated with useful reliability, that calibration improves the empirical interpretability of defect findings relative to direct thresholding, and that process-aware scorecards provide diagnostic distinctions beyond conventional outcome-based evaluation. We also discuss limitations, including annotation dependence, partial observability for some defect classes, and the need for broader external validation.
- Abstract(参考訳): LLMコーディングエージェントの既存のベンチマークは、主にタスク完了、コンパイル成功、テストパス率などの最終結果を評価する。
これらのメトリクスは、エンドタスクの能力を測定するのに役立ちますが、実行の展開方法が限定的であり、マルチステップ操作中に発生する繰り返しプロセスレベルの障害を見逃してしまうことも少なくありません。
ProcBenchは,プロセス欠陥と制御保存による符号化エージェントの軌道評価のためのベンチマーク指向フレームワークである。
ProcBenchは、実行障害を再利用可能なオントロジーに整理し、不均一なログを統一された軌道表現に標準化し、最終結果のみに頼るのではなく、リスクベースのスコアカードを校正する。
アノテーション付き200トラジェクトリでProcBenchをインスタンス化し,AndroidBench, TerminalBench, SWE-bench-Verifiedという3つのコーディングエージェントベンチマークに適用する。
以上の結果から,ProcBenchは信頼性の高いインスタンス化が可能であり,キャリブレーションにより,直接しきい値設定に対する欠陥所見の実証的解釈性が向上し,プロセス認識スコアカードが従来の結果に基づく評価以上の診断上の違いをもたらすことが示唆された。
また、アノテーション依存、いくつかの欠陥クラスの部分的な可観測性、より広範な外部検証の必要性など、制限についても論じる。
関連論文リスト
- Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements [0.13681174239726607]
RESTestBenchは、手動で検証されたNL要求と組み合わせた3つのRESTサービスからなるベンチマークである。
我々は,複数の最先端LCMに対して, (i)非リファインメントベース生成と (ii) 動作中のSUTとの相互作用によって誘導されるリファインメントベース生成の2つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-04-28T16:59:08Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。