論文の概要: OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories
- arxiv url: http://arxiv.org/abs/2605.29253v1
- Date: Thu, 28 May 2026 02:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.55606
- Title: OpenClawBench: Benchmarking Process-side Anomalies in Real-world Agent Execution Trajectories
- Title(参考訳): OpenClawBench: 実世界のエージェント実行軌跡におけるプロセス側異常のベンチマーク
- Authors: Yibing Liu, Yangze Liu, Xiaolong Yin, Bin Wang, Chong Zhang, Hao Yin, Zhongyi Han,
- Abstract要約: 実エージェント実行プロセスにおけるプロセス側異常の測定と監視のための大規模データセットであるOpenClawBenchを紹介する。
OpenClawBenchは6つのソースモデルによって生成されたBFCL駆動のOpenClawセッションから構築され、31,264の注釈付きトラジェクトリを含んでいる。
FullTaxは、アライメントされた軌跡を、バイナリラベル、エビデンス、オンセット/スパンのローカライゼーション、重度、回復性、および5クラスの異常分類といった構造化された異常管理に変換する。
- 参考スコア(独自算出の注目度): 24.616751291282046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task success can hide process anomalies in real-world agent executions. An agent may pass the final task oracle while still accumulating unresolved ambiguity, unsafe external writes, ignored errors, weakly grounded commitments, or capability-boundary overcommitment. We study this mismatch as the Outcome-Process Gap and introduce OpenClawBench, a large-scale dataset for measuring and supervising process-side anomalies in real agent execution processes. OpenClawBench is built from BFCL-driven OpenClaw sessions produced by 6 source models and contains 31,264 annotated trajectories. It aligns task-oracle outcomes with structured process evidence. FullTax converts the aligned trajectories into structured anomaly supervision: binary labels, supporting evidence, onset/span localization, severity, recoverability, and a 5-class anomaly taxonomy. Using OpenClawBench, we make the Outcome-Process Gap measurable. Among 31,135 oracle-passing executions, 2,904 are still labeled process-anomalous under FullTax. These results show that success-only evaluation misses a concrete class of process-side failures in real agent executions. A LoRA-fine-tuned Gemma 3 12B detector trained on the high-confidence FullTax supervised pool reaches binary F1=0.729 on the cleaner-labels held-out test split. Together, OpenClawBench turns real agent execution logs into auditable and reusable supervision for studying, diagnosing, and operationally monitoring runtime agent reliability.
- Abstract(参考訳): タスク成功は、現実世界のエージェントの実行でプロセス異常を隠すことができる。
エージェントは、未解決の曖昧さ、安全でない外部書き込み、無視されたエラー、弱い根拠のあるコミットメント、能力境界オーバーコミットを蓄積しながら、最終的なタスクオラクルをパスすることができる。
我々はこのミスマッチをOutcome-Process Gapとして研究し、実際のエージェント実行プロセスにおけるプロセス側異常の測定と監視のための大規模データセットOpenClawBenchを紹介した。
OpenClawBenchは6つのソースモデルによって生成されたBFCL駆動のOpenClawセッションから構築され、31,264の注釈付きトラジェクトリを含んでいる。
タスク・オラクルの結果と構造化プロセスのエビデンスを一致させる。
FullTaxは、アライメントされた軌跡を、バイナリラベル、エビデンス、オンセット/スパンのローカライゼーション、重度、回復性、および5クラスの異常分類といった構造化された異常管理に変換する。
OpenClawBenchを使うことで、Outcome-Process Gapの測定が可能になります。
31,135件のオラクルパス実行のうち、2,904件はFullTaxの下でまだプロセス異常とラベル付けされている。
これらの結果から,実エージェント実行におけるプロセス側障害の具体的なクラスを,成功のみの評価が欠落していることが示唆された。
高信頼のFullTax制御プールで訓練されたLoRA微調整のGemma 3 12B検出器は、よりクリーンなテストスプリットでF1=0.729に到達した。
OpenClawBenchは、実際のエージェント実行ログを、ランタイムエージェントの信頼性の調査、診断、運用監視のための監査可能な再利用可能な監視に変換する。
関連論文リスト
- ProcCtrlBench: Evaluating Process-Level Defects and Control Preservation in LLM Coding Agents [4.908588441456849]
ProcCtrlBenchは、LLM符号化エージェントの実行プロセス評価のベンチマークである。
4つのカテゴリで11の障害タイプをカバーする再利用可能なオントロジーに、繰り返し実行される障害を整理する。
最終結果のみではなく、標準化されたプロセスエビデンスを通じてエージェントの軌跡を評価する。
論文 参考訳(メタデータ) (2026-05-18T08:34:48Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation [49.796717294455796]
経済的なモチベーションのある逸脱を検出するための実践的な監査フレームワークIMMACULATEを提案する。
IMMACULATEは、検証可能な計算を用いて少数のリクエストを選択的に監査し、暗号オーバーヘッドを償却しながら強力な検出保証を達成する。
論文 参考訳(メタデータ) (2026-02-26T07:21:02Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。