論文の概要: ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents
- arxiv url: http://arxiv.org/abs/2605.14133v2
- Date: Mon, 18 May 2026 05:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.988108
- Title: ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents
- Title(参考訳): ClawForge: コマンドラインエージェントの実行可能なインタラクティブベンチマークを生成する
- Authors: Yuxiang Lai, Peng Xia, Haonian Ji, Kaiwen Xiong, Kaide Zeng, Jiaqi Liu, Fang Wu, Jike Zhong, Zeyu Zheng, Cihang Xie, Huaxiu Yao,
- Abstract要約: textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
- 参考スコア(独自算出の注目度): 59.626170560327274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive agent benchmarks face a tension between scalable construction and realistic workflow evaluation. Hand-authored tasks are expensive to extend and revise, while static prompt evaluation misses failures that only appear when agents operate over persistent state. Existing interactive benchmarks have advanced agent evaluation significantly, but most initialize tasks from clean state and do not systematically test how agents handle pre-existing partial, stale, or conflicting artifacts. We present \textbf{ClawForge}, a generator-backed benchmark framework for executable command-line workflows under state conflict. The framework compiles scenario templates, grounded slots, initialized state, reference trajectories, and validators into reproducible task specifications, and evaluates agents step by step over persistent workflow surfaces using normalized end state and observable side effects rather than exact trajectory matching. We instantiate this framework as the ClawForge-Bench (17 scenarios, 6 ability categories). Results across seven frontier models show that the best model reaches only 45.3% strict accuracy, wrong-state replacement remains below 17\% for all models, and the widest model separation (17% to 90%) is driven by whether agents inspect existing state before acting. Partial-credit and step-efficiency analyses further reveal that many failures are near-miss closures rather than early breakdowns, and that models exhibit qualitatively different failure styles under state conflict.
- Abstract(参考訳): インタラクティブエージェントベンチマークは、スケーラブルな構築と現実的なワークフロー評価の緊張に直面する。
手作業によるタスクの拡張と修正には費用がかかるが、静的なプロンプト評価は、エージェントが永続的な状態上で動作している場合にのみ現れる障害を見逃す。
既存のインタラクティブベンチマークではエージェント評価が大幅に向上しているが、ほとんどの場合クリーンな状態からタスクを初期化し、エージェントが既存の部分的、古い、あるいは矛盾するアーティファクトをどのように扱うかを体系的にテストしない。
我々は、ステートコンフリクトの下で実行可能なコマンドラインワークフローのためのジェネレータベースのベンチマークフレームワークである、‘textbf{ClawForge} を提示する。
このフレームワークは、シナリオテンプレート、接地されたスロット、初期化状態、参照トラジェクトリ、バリデータを再現可能なタスク仕様にコンパイルし、正常化されたエンドステートと観測可能なサイドエフェクトを使用して、永続的なワークフロー表面をステップオーバーしてエージェントを評価する。
このフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
7つのフロンティアモデルに対する結果は、最良のモデルが45.3%の厳密な精度にしか達せず、すべてのモデルで不正な状態置換が17\%以下であり、最も広いモデル分離(17%から90%)はエージェントが行動する前に既存の状態を検査するかどうかによって引き起こされることを示している。
部分クレディットとステップ効率の分析により、多くの失敗は早期の故障よりも概略閉鎖であり、状態の衝突の下では定性的に異なる失敗スタイルを示すことが明らかとなった。
関連論文リスト
- RubricRefine: Improving Tool-Use Agent Reliability with Training-Free Pre-Execution Refinement [0.36165327398913766]
反復自己複製は、推論時の信頼性技術として人気がある。
しかし、コードモードツールの使用効率はフィードバック信号の構造に大きく依存する。
本稿では,タスクやレジストリ固有のルーリックを生成する,トレーニング不要の事前実行信頼性レイヤを提案する。
論文 参考訳(メタデータ) (2026-05-10T19:57:32Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Agentproof: Static Verification of Agent Workflow Graphs [0.0]
エージェントフレームワークは、ツール使用の振る舞いを明示的なワークフローグラフとしてエンコードする傾向にある。
本稿では,4つの主要なエージェントフレームワークから統合抽象グラフモデルを自動的に抽出するAgentproofを提案する。
汎用的なモデルチェッカーとは異なり、Agentproofは手動モデリングを必要としない。
論文 参考訳(メタデータ) (2026-03-20T13:56:20Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors [47.363850513075356]
実験時間検証フレームワークであるInterwhenを提案し, 与えられた検証結果に対して, 推論モデルの出力が有効であることを保証する。
検証された推論は、物理的な世界にエージェントを配置するといった高度なシナリオにおいて重要な目標である。
論文 参考訳(メタデータ) (2026-02-05T08:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。