FuguReport

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

著者 Fanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh
所属 Evolvent AI
カテゴリ Evaluation / Benchmarking / Multi-turn multi-day task performance, Task / Interactive Agents / Coworker agent simulation, Application / Multimodal Systems / Professional scenario tasks
ライセンス CC BY 4.0

Abstractの概要

ClawMarkは、複数ターン・複数日にわたるワークフローにおいて、同僚スタイルの言語エージェントを評価するためのベンチマークである。エージェントは、ファイルシステム、メール、カレンダー、ナレッジベース、スプレッドシートの5つのサービスを備えた動的かつ状態保持型のサンドボックスに配置され、ターン間で通知付きおよびサイレントの外部状態変化が発生する。本ベンチマークは、画像、スキャンPDF、音声、動画、スプレッドシートを含む生のマルチモーダル証拠を重視し、LLMベースの判定ではなく決定論的なルールベースのスコアリングを採用している。現行リリースには13の専門的シナリオにわたる100タスクが含まれ、実行後のサービス状態に対して1,537個のPythonチェッカーによりスコアリングが行われる。

新規性

本論文の主な新規性は、従来のベンチマークでは個別に扱われてきた3つの評価特性の組み合わせにある。すなわち、タスクあたり2〜6ターンの複数日タスク構造、ターン間の外因性環境変化(通知付きおよびサイレント)、および事前文字起こしなしで提供されるフルマルチモーダルなオフィス形式の証拠である。また、LLMを審判として使用しないプロトコルを強制し、決定論的チェッカーベースの検証およびリリース時のビット同一再実行一貫性要件を課している点も特徴的である。

成果

7つの最先端エージェントシステムにおいて、最高の重み付きスコアは75.8(Claude Sonnet 4.6)であり、厳密なタスク成功率は最高でも20.0%(Claude Opus 4.6)にとどまり、部分的な進捗は一般的であるが完全なワークフロー完遂は依然として稀であることを示している。73個の3ターンタスクに対するターンレベル分析では、7モデル中6モデルがDay 2の最初の外因性環境更新後にパフォーマンスが低下しており、障害モード分析ではサイレント変更検出(56.5%の失敗率)とバックエンド書き戻し(53.6%の失敗率)が主要な障害カテゴリであることが明らかになった。

論文の注目点

  1. ClawMarkは、単一の静的エピソードではなく、ターン間の外因性状態変化を伴う複数日にわたるオフィスワークフローでエージェントを評価し、13の専門的シナリオにわたる100タスクを網羅している。
  2. 本ベンチマークは5つの状態保持型サンドボックスサービスと、1,537個の決定論的Pythonチェッカー(55個のレッドライン制約を含む)によるルールベースのスコアリングを使用し、LLMを審判とする評価を排除し、再実行時のビット同一判定を要求している。
  3. 実験結果は大きな改善余地を示しており、重み付きスコアは最高75.8、厳密なタスク成功率は最高20.0%にとどまり、2つの主要な障害モード—サイレント変更検出(56.5%の失敗率)とバックエンド書き戻し(53.6%の失敗率)—は、外因性状態変化への適応が重要な未解決課題であることを浮き彫りにしている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。