AcademiClaw: When Students Set Challenges for AI Agents
Abstractの概要
AcademiClawは、OpenClawエージェントエコシステム内の80の複雑な長期タスクからなるバイリンガルベンチマークであり、現在のAIエージェントが効果的に解決できなかった大学生の実際の学術ワークフローから収集されたものである。タスクは230件の学生提出候補から専門家レビューを経て選定され、競技レベルの数学、GPU集約型強化学習、フルスタックシステムデバッグなど25以上の専門分野にわたり、16タスクはCUDA GPU実行を必要とする。各タスクは隔離されたDockerサンドボックスで実行され、6つの検証技術を組み合わせた多次元ルーブリック、5カテゴリの安全性監査、および完全な軌跡ログによって評価される。6つのフロンティアモデルでの実験では、最良モデルでもパス率55%にとどまり、学術レベルのタスクが現在のエージェントにとって依然として大きな課題であることが確認された。
新規性
AcademiClawは、OpenClawエコシステムにおける初の学術レベルベンチマークであり、研究者やアノテーターではなく大学生から完全にタスクが発案された初のエージェントベンチマークとして提示されている。その独自性には、実際の学術ワークフローに基づく学生発案の本物のタスク、文化的に根差した能力を必要とするネイティブ中国語タスクを含むバイリンガルカバレッジ、従来のOpenClawベンチマークにはなかったGPU集約型タスク、および5カテゴリの安全性監査と組み合わせた6手法の評価フレームワークが含まれる。
成果
評価された6つのフロンティアモデルのうち、Claude Opus 4.6が最高平均スコア71.9を達成し、Claude Sonnet 4.6と共にトップパス率55.0%を共有する一方、80タスク中23タスクは全6モデルに解かれなかった。分析により、カテゴリ間の難易度変動(26.3ポイント差)がモデル間の変動(8.8ポイント差)を大幅に上回ること、トークン消費量とタスクスコアの相関がほぼゼロ(r = −0.03)であること、そして3つの異なる行動表現型(読み取り優先、実行優先、ミニマリスト)が効率性と安全性の異なるプロファイルで出現することが明らかになった。境界遵守(S3)が決定的な安全性次元として特定され、最も安全なモデルと最も安全でないモデルの間に53ポイントの差がある。
論文の注目点
- AcademiClawは、25以上の分野にわたる230件の学生提出の実世界問題から選定された80のバイリンガル長期学術タスクを含み、CUDA GPU実行を必要とする16タスクを含むOpenClawエコシステム初のGPU対応ベンチマークである。
- 本ベンチマークは、隔離されたDocker環境でエージェントを評価し、6つの相補的検証技術から構築されたタスク固有の多次元ルーブリック(タスクあたり3〜6のスコアリング次元)、5カテゴリの安全性監査、および軌跡ログを使用する。
- 6つのフロンティアモデルの評価により、限定的な成功(最高パス率55.0%、全モデルで未解決の23タスク)、カテゴリ間変動がモデル間変動を超える強いカテゴリ依存の難易度、およびトークン消費量と出力品質のほぼゼロの相関(r = −0.03)が明らかになった。
参考リンク
- arXiv: https://arxiv.org/abs/2605.02661v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.02661v1
- Hugging Face Papers: https://huggingface.co/papers/2605.02661
- GitHub: https://github.com/GAIR-NLP/AcademiClaw