論文の概要: ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
- arxiv url: http://arxiv.org/abs/2605.20251v4
- Date: Tue, 26 May 2026 09:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.775517
- Title: ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents
- Title(参考訳): ProcCtrlBench:LLM符号化剤のプロセスレベル欠陥評価と制御保存
- Authors: Jiawei He, Jie Jia, Chenbo Liu, Chaoyi Xue, Yapeng Song, Xikai Yang, Dong Sun,
- Abstract要約: ProcCtrlBenchは、LLM符号化エージェントの実行プロセス評価のベンチマークである。
4つのカテゴリで11の障害タイプをカバーする再利用可能なオントロジーに、繰り返し実行される障害を整理する。
最終結果のみではなく、標準化されたプロセスエビデンスを通じてエージェントの軌跡を評価する。
- 参考スコア(独自算出の注目度): 4.908588441456849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for LLM coding agents primarily evaluate final outcomes. While useful for measuring overall capability, these metrics provide limited visibility and often miss defects that arise during execution. We present ProcCtrlBench, a benchmark for execution-process evaluation in LLM coding agents. ProcCtrlBench organizes recurrent execution defects into a reusable ontology covering 11 defect types in 4 categories, and evaluates agent trajectories through standardized process evidence rather than final outcomes alone. To support comparison across heterogeneous agents, ProcCtrlBench standardizes raw logs into a unified trajectory representation and reports calibrated scorecards over process-level findings. In addition, ProcCtrlBench uses control preservation as a way to quantify execution-process quality, capturing whether execution remains interpretable, interruptible, correctable, reversible, and able to hand back authority when needed. We evaluate ProcCtrlBench on 200 cases sampled from three benchmarks: AndroidBench, TerminalBench, and SWE-bench-Verified. Results show that ProcCtrlBench can be instantiated with useful reliability, provides more stable semantics than direct thresholding, and reveals meaningful differences in execution quality that are often overlooked by conventional outcome-based evaluation.
- Abstract(参考訳): LLM符号化エージェントの既存のベンチマークは、主に最終結果を評価する。
全体的な能力を測定するのに有用だが、これらのメトリクスは限られた可視性を提供し、実行中に発生する欠陥を見逃すことが多い。
LLM符号化エージェントにおける実行プロセス評価のベンチマークであるProcCtrlBenchを提案する。
ProcCtrlBenchは、繰り返し実行される欠陥を4つのカテゴリで11の欠陥タイプをカバーする再利用可能なオントロジーに整理し、最終結果のみではなく、標準化されたプロセスエビデンスを通じてエージェントトラジェクトリを評価する。
不均一なエージェントの比較をサポートするため、ProcCtrlBenchは生ログを統一された軌跡表現に標準化し、プロセスレベルの結果よりも校正スコアカードを報告している。
さらに、ProcCtrlBenchは、実行プロセスの品質を定量化する手段として制御保存を使用し、実行が解釈可能か、中断可能か、修正可能か、可逆か、必要なときに権限を渡すことができる。
我々は,AndroidBench, TerminalBench, SWE-bench-Verifiedの3つのベンチマークから採取した200例についてProcCtrlBenchを評価した。
結果から, ProcCtrlBenchは有効信頼性でインスタンス化でき, 直接しきい値よりも安定なセマンティクスを提供し, 従来の結果ベース評価では見落とされがちな実行品質の有意義な相違を明らかにした。
関連論文リスト
- Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents? [61.49434544687523]
本稿では,エージェント環境におけるきめ細かい故障検出を目的としたメタ評価ベンチマークREFLECTを紹介する。
REFLECTはプロセスレベルの障害モードと結果レベルの障害モードの詳細な分類を定義し、制御および局所的な介入を実行することでインスタンス化する。
私たちの実験では、最高のパフォーマンスモデルでさえ、推論、ツール使用、レポート品質の失敗に対して、全体的なアキュラシーを55%以下に達成しています。
論文 参考訳(メタデータ) (2026-05-18T23:55:08Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements [0.13681174239726607]
RESTestBenchは、手動で検証されたNL要求と組み合わせた3つのRESTサービスからなるベンチマークである。
我々は,複数の最先端LCMに対して, (i)非リファインメントベース生成と (ii) 動作中のSUTとの相互作用によって誘導されるリファインメントベース生成の2つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-04-28T16:59:08Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems [7.429835301272413]
フレームワークには15の障害検出ツールと2つの根本原因分析モジュールが含まれている。
軽量なルールベースのチェックとLDM-as-a-judgeアセスメントを統合し、構造化インシデント検出、分類、修復をサポートする。
我々は、このフレームワークをIBM CUGAに適用し、AppWorldとWebArenaベンチマークのパフォーマンスを評価した。
論文 参考訳(メタデータ) (2026-02-18T14:55:35Z) - PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。