論文の概要: The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
- arxiv url: http://arxiv.org/abs/2506.22419v1
- Date: Fri, 27 Jun 2025 17:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.314113
- Title: The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
- Title(参考訳): LLM高速化ベンチマーク - ナノGPTの改良を再現する
- Authors: Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach,
- Abstract要約: 科学的進歩への重要な能力は、既存の作品を再現する能力である。
アクティブな研究領域においてAIエージェントが結果を再現する能力を評価するために,自動LLM高速化ベンチマークを導入する。
最近のLSMとSoTAの足場を組み合わせると、ベンチマークですでに知られているイノベーションを再実装するのに苦労していることが分かりました。
- 参考スコア(独自算出の注目度): 87.61432174951891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advancements in large language models (LLMs) have the potential to assist in scientific progress. A critical capability toward this endeavor is the ability to reproduce existing work. To evaluate the ability of AI agents to reproduce results in an active research area, we introduce the Automated LLM Speedrunning Benchmark, leveraging the research community contributions on the NanoGPT speedrun, a competition to train a GPT-2 model in the shortest time. Each of the 19 speedrun tasks provides the agent with the previous records training script, optionally paired with one of three hint formats, ranging from pseudocode to paper-like descriptions of the new records improvements. Records execute quickly by design and speedrun improvements encompass diverse code-level changes, ranging from high-level algorithmic advancements to hardware-aware optimizations. These features make the benchmark both accessible and realistic for the frontier problem of improving LLM training. We find that recent reasoning LLMs combined with SoTA scaffolds struggle to reimplement already-known innovations in our benchmark, even when given detailed hints. Our benchmark thus provides a simple, non-saturated measure of an LLMs ability to automate scientific reproduction, a necessary (but not sufficient) skill for an autonomous research agent.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、科学的進歩を支援する可能性がある。
この取り組みに対する重要な能力は、既存の作業を再現する能力である。
アクティブな研究領域においてAIエージェントが結果を再現する能力を評価するために、最短時間でGPT-2モデルをトレーニングする競争であるNanoGPTスピードランにおける研究コミュニティの貢献を活用し、Automated LLM Speedrunning Benchmarkを紹介した。
19のスピードランタスクはそれぞれ、エージェントに以前のレコードトレーニングスクリプトを提供し、オプションで3つのヒントフォーマットのうちの1つとペアリングする。
設計とスピードランの改善により、高速に実行されるレコードは、ハイレベルなアルゴリズムの進歩からハードウェア対応の最適化まで、様々なコードレベルの変更を含んでいる。
これらの特徴は、LLMトレーニングを改善するためのフロンティア問題に対して、ベンチマークをアクセシブルかつ現実的なものにしている。
最近のLSMとSoTAの足場を組み合わせることで、詳細なヒントが得られても、ベンチマークですでに知られているイノベーションを再実装するのは難しいことが分かりました。
本稿のベンチマークでは,LLMの科学的再現を自動化するためのシンプルで不飽和な測定方法を提供し,自律的な研究エージェントに必要なスキルを提供する。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - LLM Program Optimization via Retrieval Augmented Search [71.40092732256252]
提案手法は,提案手法によって最適化されたビーム探索を行う検索アルゴリズムであるRetrieval Augmented Search (RAS) である。
我々は、RASが従来の最先端のブラックボックス適応戦略よりも1.8$times$パフォーマンスが高いことを示す。
また、トレーニング例を「アトミックな編集」に分解することで、解釈可能性を向上させるAEGISと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T06:34:47Z) - Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers [7.6245627565464]
大規模言語モデル(LLM)は、赤外線システムにおいてゼロショットの再ランク付けに人気がある。
本稿では,検索クエリによる注目パターンの変化を利用した,高精度かつ効率的な再ランク付け手法であるin-context re- rank (ICR)を提案する。
本研究は,テキスト生成を超越したオープンウェイトLCMの新たな利用方法を探究することを目的とする。
論文 参考訳(メタデータ) (2024-10-03T16:25:37Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Prompts Matter: Insights and Strategies for Prompt Engineering in
Automated Software Traceability [45.235173351109374]
大規模言語モデル(LLM)は、自動化トレーサビリティに革命をもたらす可能性がある。
本稿では,LLMからリンク予測を抽出するプロセスについて検討する。
論文 参考訳(メタデータ) (2023-08-01T01:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。