ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents
Abstractの概要
ClawMarkは、複数ターン・複数日にわたるワークフローにおいて、同僚スタイルの言語エージェントを評価するためのベンチマークである。エージェントは、ファイルシステム、メール、カレンダー、ナレッジベース、スプレッドシートの5つのサービスを備えた動的かつ状態保持型のサンドボックスに配置され、ターン間で通知付きおよびサイレントの外部状態変化が発生する。本ベンチマークは、画像、スキャンPDF、音声、動画、スプレッドシートを含む生のマルチモーダル証拠を重視し、LLMベースの判定ではなく決定論的なルールベースのスコアリングを採用している。現行リリースには13の専門的シナリオにわたる100タスクが含まれ、実行後のサービス状態に対して1,537個のPythonチェッカーによりスコアリングが行われる。
新規性
本論文の主な新規性は、従来のベンチマークでは個別に扱われてきた3つの評価特性の組み合わせにある。すなわち、タスクあたり2〜6ターンの複数日タスク構造、ターン間の外因性環境変化(通知付きおよびサイレント)、および事前文字起こしなしで提供されるフルマルチモーダルなオフィス形式の証拠である。また、LLMを審判として使用しないプロトコルを強制し、決定論的チェッカーベースの検証およびリリース時のビット同一再実行一貫性要件を課している点も特徴的である。
成果
7つの最先端エージェントシステムにおいて、最高の重み付きスコアは75.8(Claude Sonnet 4.6)であり、厳密なタスク成功率は最高でも20.0%(Claude Opus 4.6)にとどまり、部分的な進捗は一般的であるが完全なワークフロー完遂は依然として稀であることを示している。73個の3ターンタスクに対するターンレベル分析では、7モデル中6モデルがDay 2の最初の外因性環境更新後にパフォーマンスが低下しており、障害モード分析ではサイレント変更検出(56.5%の失敗率)とバックエンド書き戻し(53.6%の失敗率)が主要な障害カテゴリであることが明らかになった。
論文の注目点
- ClawMarkは、単一の静的エピソードではなく、ターン間の外因性状態変化を伴う複数日にわたるオフィスワークフローでエージェントを評価し、13の専門的シナリオにわたる100タスクを網羅している。
- 本ベンチマークは5つの状態保持型サンドボックスサービスと、1,537個の決定論的Pythonチェッカー(55個のレッドライン制約を含む)によるルールベースのスコアリングを使用し、LLMを審判とする評価を排除し、再実行時のビット同一判定を要求している。
- 実験結果は大きな改善余地を示しており、重み付きスコアは最高75.8、厳密なタスク成功率は最高20.0%にとどまり、2つの主要な障害モード—サイレント変更検出(56.5%の失敗率)とバックエンド書き戻し(53.6%の失敗率)—は、外因性状態変化への適応が重要な未解決課題であることを浮き彫りにしている。