Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft
Abstractの概要
本論文は、AIエージェントが個別のタスクを解くだけでなく、発見から応用までの一連のループを完遂できるかを評価するために設計されたMinecraftベースのベンチマーク「SciCrafter」を提案する。このベンチマークは、5つのタスクファミリーにわたるパラメータ化されたレッドストーン回路構築問題を用い、エージェントがメカニクスを発見し、その知識を応用して機能的なシステムを構築することを求める。難易度は離散的なメカニズム閾値(信号減衰、リピーターの意味論など)に紐づけてスケーリングされる。著者らは、共通の汎用コードエージェント基盤(Claude Code)の下で、複数のフロンティアモデル(GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5)およびオープンモデル(Qwen3-32B、Qwen2.5-72B)を評価し、成功率が約26%で頭打ちになることを示した。さらに、エージェントの失敗を4つの能力ギャップ(知識ギャップの特定、実験的発見、知識の統合、知識の応用)に分解し、各ギャップの代理指標として機能する的を絞った介入の限界的寄与を分析している。
新規性
主な新規性は、Minecraftのレッドストーンタスクを発見から応用へのループの制御可能かつスケーラブルなテストベッドとして定式化した点にあり、難易度の増加は単純な表面的変化ではなく離散的なメカニズム閾値(信号減衰、リピーターの意味論など)に紐づけられている。また、エージェントの失敗を4つの能力ギャップに診断的に分解する手法を提案し、オラクルヒント、構造化された実験テンプレートを持つサイエンティスト・サブエージェント、および「主張-証明-制約-例」形式の知識統合フォーマットを含む的を絞った介入を検討している。
成果
25タスク(5ファミリー×5レベル)において、最良のベースラインモデル(Gemini-3-Pro)の成功率はわずか26.0%であった。オラクルヒントにより成功率はおよそ2倍(絶対値で15.0〜27.0%の向上)となり、サイエンティスト・サブエージェントの追加でGemini-3-Proは64.0%に達したが、モデル全体で36.0〜57.0%の残存する応用ギャップが依然として存在する。構造化された「主張-証明-制約-例」統合フォーマット(64.0%)は、自由記述の要約(58.0%)および「発見-説明-例」フォーマット(60.5%)をGemini-3-Proにおいて上回り、分析の結果、知識の応用が最大の全体的ギャップであり続ける一方、フロンティアモデルにとっては知識ギャップの特定が同程度に重要なボトルネックになりつつあることが明らかになった。
論文の注目点
- SciCrafterは、発見から応用へのループを、5ファミリーのスケーラブルなMinecraftレッドストーン構築タスクとして運用化しており、難易度は離散的なメカニズム閾値(ローカル配線文法、信号減衰、リピーターの意味論)を跨ぐことで、暗記された解法ではなく真の発見を要求する。
- 標準化されたClaude Codeエージェント基盤の下で、フロンティアモデル(GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5、Grok-4)は25タスク全体でベースライン成功率21.0〜26.0%にとどまり、モデルサイズのスケーリングだけでは発見から応用へのボトルネックを解消できないことが示唆される。
- 的を絞った介入により差異化された能力ギャップが明らかになった:オラクルヒントが最大の単独改善(絶対値で15.0〜27.0%の向上)をもたらし、サイエンティスト・サブエージェントがさらに7.5〜14.0%を追加し、構造化された「主張-証明-制約-例」統合フォーマットは自由記述の要約を上回った(Gemini-3-Proで64.0%対58.0%)が、36.0〜57.0%の大きな残存応用ギャップが依然として存在する。