論文の概要: Towards Execution-Grounded Automated AI Research
- arxiv url: http://arxiv.org/abs/2601.14525v1
- Date: Tue, 20 Jan 2026 22:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.176023
- Title: Towards Execution-Grounded Automated AI Research
- Title(参考訳): 実行を取り巻くAI研究に向けて
- Authors: Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto,
- Abstract要約: 実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。
我々は、アイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。
本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
- 参考スコア(独自算出の注目度): 106.90422658528819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated AI research holds great potential to accelerate scientific discovery. However, current LLMs often generate plausible-looking but ineffective ideas. Execution grounding may help, but it is unclear whether automated execution is feasible and whether LLMs can learn from the execution feedback. To investigate these, we first build an automated executor to implement ideas and launch large-scale parallel GPU experiments to verify their effectiveness. We then convert two realistic research problems - LLM pre-training and post-training - into execution environments and demonstrate that our automated executor can implement a large fraction of the ideas sampled from frontier LLMs. We analyze two methods to learn from the execution feedback: evolutionary search and reinforcement learning. Execution-guided evolutionary search is sample-efficient: it finds a method that significantly outperforms the GRPO baseline (69.4% vs 48.0%) on post-training, and finds a pre-training recipe that outperforms the nanoGPT baseline (19.7 minutes vs 35.9 minutes) on pre-training, all within just ten search epochs. Frontier LLMs often generate meaningful algorithmic ideas during search, but they tend to saturate early and only occasionally exhibit scaling trends. Reinforcement learning from execution reward, on the other hand, suffers from mode collapse. It successfully improves the average reward of the ideator model but not the upper-bound, due to models converging on simple ideas. We thoroughly analyze the executed ideas and training dynamics to facilitate future efforts towards execution-grounded automated AI research.
- Abstract(参考訳): 自動AI研究は、科学的発見を加速する大きな可能性を秘めている。
しかし、現在のLLMは、しばしば可塑性だが非効率なアイデアを生み出す。
実行基盤化は役に立つかもしれないが、自動実行が実現可能かどうか、LLMが実行フィードバックから学べるかどうかは不明だ。
これらを調べるために、まずアイデアを実装する自動化エグゼキュータを構築し、その有効性を検証するために大規模な並列GPU実験をローンチする。
次に、LLMの事前学習と後学習という2つの現実的な研究問題を実行環境に変換し、フロンティアのLLMからサンプリングされたアイデアの大部分を自動実行者が実装できることを実証する。
本研究では,進化的探索と強化学習という,実行フィードバックから学習する2つの方法を分析する。
実行誘導型進化的探索はサンプル効率が良く、後トレーニングではGRPOベースライン(69.4%対48.0%)を著しく上回り、前トレーニングではナノGPTベースライン(19.7分対35.9分)を上回る事前学習レシピを見つける。
フロンティアLSMは探索中に意味のあるアルゴリズム的アイデアを生成することが多いが、早期に飽和し、時折スケーリングの傾向を示す傾向にある。
一方、実行報酬からの強化学習はモード崩壊に苦しむ。
単純なアイデアに収束するモデルのために、アイデアターモデルの平均的な報酬を改善することに成功したが、上界は改善しなかった。
我々は、実行基盤の自動化AI研究への今後の取り組みを促進するために、実行されたアイデアとトレーニングのダイナミクスを徹底的に分析する。
関連論文リスト
- The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements [87.61432174951891]
科学的進歩への重要な能力は、既存の作品を再現する能力である。
アクティブな研究領域においてAIエージェントが結果を再現する能力を評価するために,自動LLM高速化ベンチマークを導入する。
最近のLSMとSoTAの足場を組み合わせると、ベンチマークですでに知られているイノベーションを再実装するのに苦労していることが分かりました。
論文 参考訳(メタデータ) (2025-06-27T17:44:32Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。