FuguReport

AcademiClaw: When Students Set Challenges for AI Agents

著者 Junjie Yu, Pengrui Lu, Weiye Si, Hongliang Lu, Jiabao Wu, Kaiwen Tao, Kun Wang, Lingyu Yang, Qiran Zhang, Xiuting Guo, Xuanyu Wang, Yang Wang, Yanjie Wang, Yi Yang, Zijian Hu, Ziyi Yang, Zonghan Zhou, Binghao Qiang, Borui Zhang, Chenning Li, Enchang Zhang, Feifan Chen, Feng Jian, Fengyin Sun, Hao Qiu, Hao Zheng, Haoran Zhu, Hongyu Liu, Jianbin Deng, Jiaxin Song, Jiaying Chi, Jiayou Shi, Jie Fang, Jinghui Zhong, Jingyu Zhou, Jinze Li, Junfeng Yi, Junyan Yu, Junzhi Xue, Ni Song, Pengyi Chen, Qi Chen, Quansheng Li, Rui Tao, Shenghai Gong, Shenhang Lu, Tianqi Shen, Tianxiang Zhu, Tiehan Kang, Tingyu Li, Wendi Wu, Xiao Shen, Xiao Zhou, Xiaotao Zhang, Xinrong Li, Xuankun Yang, Xun Zhang, Yan Li, Ye Lu, Yi Wang, Yibo Zhou, Yichi Zhang, Yihao Sun, Yijun Huang, Yixin Zhu, Yixuan Wu, Yuchen Sun, Yue Wu, Yuheng Sun, Yukun Li, Yutian Tu, Yuxuan Qin, Yuzhuo Wu, Zeyu Li, Zhengyu Lou, Zhenning Ran, Zizhu He, Pengfei Liu
所属 Shanghai Jiao Tong University / GAIR / SII
カテゴリ Evaluation / Benchmarking / Complex academic task benchmark, Task / Sequential Task / Long horizontal tasks, Application / Educational AI / Student-generated challenge tasks
ライセンス CC BY 4.0

Abstractの概要

AcademiClawは、OpenClawエージェントエコシステム内の80の複雑な長期タスクからなるバイリンガルベンチマークであり、現在のAIエージェントが効果的に解決できなかった大学生の実際の学術ワークフローから収集されたものである。タスクは230件の学生提出候補から専門家レビューを経て選定され、競技レベルの数学、GPU集約型強化学習、フルスタックシステムデバッグなど25以上の専門分野にわたり、16タスクはCUDA GPU実行を必要とする。各タスクは隔離されたDockerサンドボックスで実行され、6つの検証技術を組み合わせた多次元ルーブリック、5カテゴリの安全性監査、および完全な軌跡ログによって評価される。6つのフロンティアモデルでの実験では、最良モデルでもパス率55%にとどまり、学術レベルのタスクが現在のエージェントにとって依然として大きな課題であることが確認された。

新規性

AcademiClawは、OpenClawエコシステムにおける初の学術レベルベンチマークであり、研究者やアノテーターではなく大学生から完全にタスクが発案された初のエージェントベンチマークとして提示されている。その独自性には、実際の学術ワークフローに基づく学生発案の本物のタスク、文化的に根差した能力を必要とするネイティブ中国語タスクを含むバイリンガルカバレッジ、従来のOpenClawベンチマークにはなかったGPU集約型タスク、および5カテゴリの安全性監査と組み合わせた6手法の評価フレームワークが含まれる。

成果

評価された6つのフロンティアモデルのうち、Claude Opus 4.6が最高平均スコア71.9を達成し、Claude Sonnet 4.6と共にトップパス率55.0%を共有する一方、80タスク中23タスクは全6モデルに解かれなかった。分析により、カテゴリ間の難易度変動(26.3ポイント差)がモデル間の変動(8.8ポイント差)を大幅に上回ること、トークン消費量とタスクスコアの相関がほぼゼロ(r = −0.03)であること、そして3つの異なる行動表現型(読み取り優先、実行優先、ミニマリスト)が効率性と安全性の異なるプロファイルで出現することが明らかになった。境界遵守(S3)が決定的な安全性次元として特定され、最も安全なモデルと最も安全でないモデルの間に53ポイントの差がある。

論文の注目点

  1. AcademiClawは、25以上の分野にわたる230件の学生提出の実世界問題から選定された80のバイリンガル長期学術タスクを含み、CUDA GPU実行を必要とする16タスクを含むOpenClawエコシステム初のGPU対応ベンチマークである。
  2. 本ベンチマークは、隔離されたDocker環境でエージェントを評価し、6つの相補的検証技術から構築されたタスク固有の多次元ルーブリック(タスクあたり3〜6のスコアリング次元)、5カテゴリの安全性監査、および軌跡ログを使用する。
  3. 6つのフロンティアモデルの評価により、限定的な成功(最高パス率55.0%、全モデルで未解決の23タスク)、カテゴリ間変動がモデル間変動を超える強いカテゴリ依存の難易度、およびトークン消費量と出力品質のほぼゼロの相関(r = −0.03)が明らかになった。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。