論文の概要: ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
- arxiv url: http://arxiv.org/abs/2604.05172v2
- Date: Wed, 08 Apr 2026 09:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.090286
- Title: ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
- Title(参考訳): ClawsBench: シミュレーションワークスペースにおけるLLM生産性エージェントの能力と安全性の評価
- Authors: Xiangyi Li, Kyoung Whan Choe, Yimin Liu, Xiaokun Chen, Chujun Tao, Bingran You, Wenbo Chen, Zonglin Di, Jiankai Sun, Shenghan Zheng, Jiajun Bao, Yuanli Wang, Weixiang Yan, Yiyuan Li, Han-chung Lee,
- Abstract要約: 生産性タスクを自動化するために、大規模言語モデル(LLM)エージェントがますますデプロイされる。
既存のベンチマークは単純化された環境に依存しており、現実的なマルチサービス環境をキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
- 参考スコア(独自算出の注目度): 17.202580606345666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification. We release the trajectories and future dataset at https://clawsbench.com.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、生産性タスク(Eメール、スケジューリング、ドキュメント管理など)を自動化するためにデプロイされることが多いが、ライブサービスでの評価は、潜在的に不可逆的な変更のために危険である。
既存のベンチマークは単純化された環境に依存しており、現実的でステートフルなマルチサービスワークフローをキャプチャできない。
我々は,現実的な生産性設定におけるLCMエージェントの評価と改善のためのベンチマークであるClawsBenchを紹介する。
フルステート管理と決定論的スナップショット/リストアを備えた5つの高忠実なモックサービス(Gmail、Slack、Google Calendar、Google Docs、Google Drive)と、単一サービス、クロスサービス、安全クリティカルシナリオをカバーする44の構造化タスクが含まれている。
エージェントの足場を2つの独立したレバー(プログレッシブ開示を通じてAPI知識を注入するドメインスキルと、サービス間の振舞いを調整するメタプロンプト)に分解し、それぞれの分離と組み合わせの効果を測定する。
6つのモデル、4つのエージェントハーネス、33の条件での実験では、フルスキャフォールディングでは、エージェントは39-64%のタスク成功率を達成するが、安全でないアクションレートは7-33%である。
OpenClawでは、上位5つのモデルがタスクの成功率(53-63%)において10ポイントの範囲内にあり、安全でないアクションレートが7%から23%に低下し、2つのメトリクス間で一貫した順序付けが行われていない。
マルチステップのサンドボックスエスカレーションやサイレントコントラクト修正を含む,安全でない行動の8つのパターンを同定した。
トラジェクトリと将来のデータセットはhttps://clawsbench.com.comで公開しています。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Multimodal Safety Evaluation in Generative Agent Social Simulations [43.972551727499116]
エージェントを3次元で評価するための再現可能なシミュレーションフレームワークを提案する。
エージェントはしばしば、地域のリビジョンとグローバルな安全の整合に失敗し、安全でない計画の修正で55%の成功率にしか達していないことを示す。
特に、誤解を招く視覚と組み合わせると、安全でない行動の45%が受け入れられ、画像が過信される傾向が強かった。
論文 参考訳(メタデータ) (2025-10-09T02:42:57Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models [33.1538965735133]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。
4つの異なるCTFコンペティションから、40のプロフェッショナルレベルのCapture the Flag(CTF)タスクが含まれています。
GPT-4o, OpenAI o1-preview, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat, Llama 3.1 405B Instruct。
論文 参考訳(メタデータ) (2024-08-15T17:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。