論文の概要: Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
- arxiv url: http://arxiv.org/abs/2604.28139v2
- Date: Fri, 01 May 2026 09:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 13:37:11.016042
- Title: Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
- Title(参考訳): Claw-Eval-Live: 現実世界のワークフローを進化させるためのライブエージェントベンチマーク
- Authors: Chenxin Li, Zhengyang Tang, Mingxin Huang, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan,
- Abstract要約: ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
- 参考スコア(独自算出の注目度): 67.92316850084575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.
- Abstract(参考訳): LLMエージェントは、ソフトウェアツール、ビジネスサービス、およびローカルワークスペースにわたるエンドツーエンドの作業ユニットを完成させる予定である。
しかし、多くのエージェントベンチマークはリリース時に設定されたタスクを凍結し、主に最終レスポンスをグレードするので、ワークフローの要求の進化に対するエージェントの評価や、タスクが実行されたかどうかの検証が困難になる。
我々は、ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介した。これは、リフレッシュ可能なシグナル層を分離し、公開ワークフロー要求信号から、再現可能なタイムスタンプリリーススナップショットからリリース間で更新する。
各リリースは、公開ワークフロー要求信号から構築されており、ClawHub Top-500スキルが現在のリリースで使用されており、固定フィクスチャ、サービス、ワークスペース、グレーダによるコントロールタスクとして実現されている。
グレードには、Claw-Eval-Liveが実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録し、エビデンスが十分であれば決定論的チェックを使用し、セマンティックディメンションのみを判断する構造化LLMを使用する。
このリリースには、コントロールされたビジネスサービスとローカルワークスペースの修復にまたがる105のタスクが含まれており、共有公開パスルールの下で13のフロンティアモデルを評価する。
実験の結果、信頼性の高いワークフローの自動化は解決には程遠いことが判明した。
障害はタスクファミリと実行面によって構成され、HR、管理、マルチシステムビジネスワークフローは永続的なボトルネックとして、局所的なワークスペースの修復は比較的簡単だが不飽和である。
リーダーボードのランクだけでは不十分である。これは、同じパスレートのモデルが全体の完成度にばらつきがあり、タスクレベルの差別がタスクの中間領域に集中するためである。
Claw-Eval-Live氏は、ワークフローエージェントの評価は、新鮮な外部要求と検証可能なエージェントアクションで2回基礎を置くべきだと提案している。
関連論文リスト
- ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.73176261673471]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。
汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。
本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文 参考訳(メタデータ) (2026-01-14T21:35:51Z) - WISE-Flow: Workflow-Induced Structured Experience for Self-Evolving Conversational Service Agents [12.014029662322152]
大規模言語モデル(LLM)ベースのエージェントは、ユーザ向けサービスに広くデプロイされているが、新しいタスクではエラーが発生しやすい。
本稿では,過去のサービスインタラクションを再利用可能な手続き体験に変換する実現可能性中心のフレームワークであるWISE-Flowを提案する。
論文 参考訳(メタデータ) (2026-01-13T02:43:41Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。