論文の概要: Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft
- arxiv url: http://arxiv.org/abs/2604.24697v1
- Date: Mon, 27 Apr 2026 16:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.192734
- Title: Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft
- Title(参考訳): 現在のエージェントは発見と応用のギャップを埋められるか? : Minecraftのケーススタディ
- Authors: Zhou Ziheng, Huacong Tang, Jinyuan Zhang, Haowei Lin, Bangcheng Yang, Qian Long, Fang Sun, Yizhou Sun, Yitao Liang, Ying Nian Wu, Demetri Terzopoulos, Xiaofeng Gao,
- Abstract要約: 我々はMinecraftベースのベンチマークであるSciCrafterを紹介した。
GPT-5.2, Gemini-3-Pro, Claude-Opus-4.5などのフロンティアモデルを汎用コードエージェントの足場下で評価した。
我々の分析によると、一般的な知識応用能力は依然として全てのモデルで最大のギャップであり続けているが、フロンティアモデルでは、知識ギャップの識別が大きなハードルになりつつある。
- 参考スコア(独自算出の注目度): 70.0241202837925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering causal regularities and applying them to build functional systems--the discovery-to-application loop--is a hallmark of general intelligence, yet evaluating this capacity has been hindered by the vast complexity gap between scientific discovery and real-world engineering. We introduce SciCrafter, a Minecraft-based benchmark that operationalizes this loop through parameterized redstone circuit tasks. Agents must ignite lamps in specified patterns (e.g., simultaneously or in timed sequences); scaling target parameters substantially increases construction complexity and required knowledge, forcing genuine discovery rather than reliance on memorized solutions. Evaluating frontier models including GPT-5.2, Gemini-3-Pro, and Claude-Opus-4.5 under a general-purpose code agent scaffold, we find that all plateau at approximately 26% success rate. To diagnose these failures, we decompose the loop into four capacities--knowledge gap identification, experimental discovery, knowledge consolidation, and knowledge application--and design targeted interventions whose marginal contributions serve as proxies for corresponding gaps. Our analysis reveals that although the general knowledge application capability still remains as the biggest gap across all models, for frontier models the knowledge gap identification starts to become a major hurdle--indicating the bottleneck is shifting from solving problems right to raising the right problems for current AI. We release SciCrafter as a diagnostic probe for future research on AI systems that navigate the full discovery-to-application loop.
- Abstract(参考訳): 因果正則を発見し、それを応用して機能システムを構築する – 発見から応用までのループ – は、一般的な知能の目印だが、この能力を評価することは、科学的な発見と現実世界のエンジニアリングの間の大きな複雑さのギャップによって妨げられている。
我々は、パラメータ化された赤岩回路タスクを通じてこのループを運用するMinecraftベースのベンチマークであるSciCrafterを紹介した。
エージェントは特定のパターン(例えば、同時に、あるいはタイムドシーケンス)でランプを点火しなければならない。
GPT-5.2、Gemini-3-Pro、Claude-Opus-4.5などのフロンティアモデルを汎用コードエージェントの足場下で評価したところ、すべてのプラトーが約26%の成功率で得られた。
これらの障害を診断するために,ループを4つの能力 – 知識ギャップ識別,実験的発見,知識統合,知識応用 – に分解し,限界寄与が対応するギャップのプロキシとして機能するターゲット介入を設計する。
私たちの分析によると、一般的な知識アプリケーション能力は依然としてすべてのモデルで最大のギャップとして残っていますが、フロンティアモデルでは、知識ギャップの識別が大きなハードルとなり始めています。
私たちはSciCrafterを、完全な発見からアプリケーションへのループをナビゲートするAIシステムに関する将来の研究のための診断プローブとしてリリースしています。
関連論文リスト
- SAKE: Self-aware Knowledge Exploitation-Exploration for Grounded Multimodal Named Entity Recognition [28.17858615204594]
Grounded Multimodal Named Entity Recognition (GMNER)は、名前付きエンティティを抽出し、画像とテキストのペア内で視覚領域をローカライズすることを目的としている。
オープンワールドのソーシャルメディアプラットフォームでは、GMNERは長い尾を持ち、急速に進化し、目に見えない存在であるため、依然として挑戦的だ。
本研究では、内部知識の活用と外部知識探索を調和させるエンドツーエンドのエージェントフレームワークであるSAKEを提案する。
論文 参考訳(メタデータ) (2026-04-22T03:17:36Z) - Exploration and Exploitation Errors Are Measurable for Language Model Agents [52.95061000593404]
言語モデル(LM)エージェントは、複雑なオープン化された決定タスクにますます使われています。
コア要件は、問題空間を探索し、獲得した知識を効果的に活用する能力である。
実践的なAIシナリオにインスパイアされた制御可能な環境を設計する。
論文 参考訳(メタデータ) (2026-04-14T17:59:57Z) - AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model [1.14219428942199]
既存の自動研究システムは、ステートレスでリニアなパイプラインとして動作する。
マルチエージェントオーケストレーションフレームワークである textbfAI-Supervisor を提案する。
エージェントは、人間の関心によって駆動されるエンドツーエンドのAI研究の監督を提供する。
論文 参考訳(メタデータ) (2026-03-25T15:16:51Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Probing the Knowledge Boundary: An Interactive Agentic Framework for Deep Knowledge Extraction [29.717986496967978]
本稿では,大規模言語モデルの知識を体系的に抽出し,定量化する対話型エージェントフレームワークを提案する。
本手法は,異なる粒度で知識を探索する4つの適応探索ポリシーを含む。
我々は、より大きなモデルが常により多くの知識を抽出する明確な知識スケーリング法を観察する。
論文 参考訳(メタデータ) (2026-02-01T01:43:44Z) - Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Fine-grained Stateful Knowledge Exploration: Effective and Efficient Graph Retrieval with Large Language Models [19.049828741139425]
大きな言語モデル(LLM)は印象的な能力を示していますが、その知識を更新することは大きな課題です。
既存のほとんどの手法では、知識グラフから関連する知識を漸進的に取り出すために、問題全体を目的として扱うパラダイムを使用している。
本研究では,細粒度ステートフル知識探索のための新しいパラダイムであるFiSKEを提案する。
論文 参考訳(メタデータ) (2024-01-24T13:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。