Fugu-MT 論文翻訳(概要): ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

論文の概要: ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

arxiv url: http://arxiv.org/abs/2604.23781v1
Date: Sun, 26 Apr 2026 16:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:07.545237
Title: ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents
Title（参考訳）: ClawMark: マルチターン、マルチデイ、マルチモーダルな同僚エージェントのためのリビングワールドベンチマーク
Authors: Fanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh,
Abstract要約: マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
参考スコア（独自算出の注目度）: 77.73176261673471
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language-model agents are increasingly used as persistent coworkers that assist users across multiple working days. During such workflows, the surrounding environment may change independently of the agent: new emails arrive, calendar entries shift, knowledge-base records are updated, and evidence appears across images, scanned PDFs, audio, video, and spreadsheets. Existing benchmarks do not adequately evaluate this setting because they typically run within a single static episode and remain largely text-centric. We introduce \bench{}, a benchmark for coworker agents built around multi-turn multi-day tasks, a stateful sandboxed service environment whose state evolves between turns, and rule-based verification. The current release contains 100 tasks across 13 professional scenarios, executed against five stateful sandboxed services (filesystem, email, calendar, knowledge base, spreadsheet) and scored by 1537 deterministic Python checkers over post-execution service state; no LLM-as-judge is invoked during scoring. We benchmark seven frontier agent systems. The strongest model reaches 75.8 weighted score, but the best strict Task Success is only 20.0\%, indicating that partial progress is common while complete end-to-end workflow completion remains rare. Turn-level analysis shows that performance drops after the first exogenous environment update, highlighting adaptation to changing state as a key open challenge. We release the benchmark, evaluation harness, and construction pipeline to support reproducible coworker-agent evaluation.
Abstract（参考訳）: 言語モデルエージェントは、複数の作業日にわたってユーザを支援する永続的な同僚として、ますます使われています。新たなメールが到着し、カレンダーのエントリがシフトし、知識ベースのレコードが更新され、画像、スキャンされたPDF、オーディオ、ビデオ、スプレッドシートに証拠が現れる。既存のベンチマークでは、通常は1つの静的エピソード内で実行され、主にテキスト中心であるため、この設定を適切に評価しない。マルチターンマルチデイタスクを中心に構築された、同僚エージェントのベンチマークである‘bench{}’や、ターン間で状態が進化するステートフルなサンドボックスサービス環境、ルールベースの検証などを紹介します。現在のリリースには、13のプロフェッショナルシナリオにわたる100のタスクが含まれており、ステートフルなサンドボックスサービス(ファイルシステム、Eメール、カレンダー、ナレッジベース、スプレッドシート)に対して実行され、実行後のサービス状態に対して1537の決定論的Pythonチェッカーによってスコア付けされる。我々は7つのフロンティアエージェントシステムをベンチマークする。最強のモデルは75.8の重み付きスコアに達するが、最も厳密なタスク成功率は20.0\%に過ぎず、部分的な進歩は一般的であり、完全なエンドツーエンドのワークフロー完了は依然として稀である。ターンレベル分析は、最初の外生環境のアップデート後にパフォーマンスが低下し、変更状態への適応が重要なオープンチャレンジであることを示している。我々は,再現可能な共同作業者評価をサポートするためのベンチマーク,評価ハーネス,建設パイプラインをリリースする。

論文の概要: ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

関連論文リスト