論文の概要: PostTrainBench: Can LLM Agents Automate LLM Post-Training?
- arxiv url: http://arxiv.org/abs/2603.08640v2
- Date: Tue, 10 Mar 2026 15:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.717227
- Title: PostTrainBench: Can LLM Agents Automate LLM Post-Training?
- Title(参考訳): PostTrainBench: LLMエージェントはLDMのポストトレーニングを自動化できるか?
- Authors: Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko,
- Abstract要約: AIエージェントは、この1年で驚くほどソフトウェア工学に精通している。
これらのシステムは、AI研究そのものを自動化する能力を拡張することができるのだろうか?
本稿では,LLMエージェントが有界な計算制約下で自律的に実行できることをベンチマークするためにPostTrainBenchを導入する。
- 参考スコア(独自算出の注目度): 29.73325463650116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents have become surprisingly proficient at software engineering over the past year, largely due to improvements in reasoning capabilities. This raises a deeper question: can these systems extend their capabilities to automate AI research itself? In this paper, we explore post-training, the critical phase that turns base LLMs into useful assistants. We introduce PostTrainBench to benchmark how well LLM agents can perform post-training autonomously under bounded compute constraints (10 hours on one H100 GPU). We ask frontier agents (e.g., Claude Code with Opus 4.6) to optimize the performance of a base LLM on a particular benchmark (e.g., Qwen3-4B on AIME). Importantly, we do not provide any predefined strategies to the agents and instead give them full autonomy to find necessary information on the web, run experiments, and curate data. We find that frontier agents make substantial progress but generally lag behind instruction-tuned LLMs from leading providers: 23.2% for the best agent vs. 51.1% for official instruction-tuned models. However, agents can exceed instruction-tuned models in targeted scenarios: GPT-5.1 Codex Max achieves 89% on BFCL with Gemma-3-4B vs. 67% for the official model. We also observe several failure modes worth flagging. Agents sometimes engage in reward hacking: training on the test set, downloading existing instruction-tuned checkpoints instead of training their own, and using API keys they find to generate synthetic data without authorization. These behaviors are concerning and highlight the importance of careful sandboxing as these systems become more capable. Overall, we hope PostTrainBench will be useful for tracking progress in AI R&D automation and for studying the risks that come with it. Website and code are available at https://posttrainbench.com/.
- Abstract(参考訳): AIエージェントは、主に推論能力の改善のために、この1年で驚くほどソフトウェアエンジニアリングに精通している。
これらのシステムは、AI研究そのものを自動化する能力を拡張することができるのだろうか?
本稿では,基本LPMを有用なアシスタントに変えるための重要なフェーズであるポストトレーニングについて検討する。
我々はPostTrainBenchを導入し、LLMエージェントが有界計算制約(H100 GPUで10時間)下で自律的に実行できることをベンチマークする。
我々は、特定のベンチマーク(例えば、AIMEのQwen3-4B)でベースLLMのパフォーマンスを最適化するために、フロンティアエージェント(例えば、Claude Code with Opus 4.6)に尋ねる。
重要なのは、エージェントに事前に定義された戦略を提供しておらず、代わりに、Web上で必要な情報を見つけ、実験を行い、データをキュレートするための完全な自律性を提供します。
我々は、フロンティアエージェントが大幅に進歩するが、主要なプロバイダからの命令調整 LLM に遅れがあることを発見した:23.2%が最高のエージェント、51.1%が公式の命令調整モデルである。
GPT-5.1 Codex MaxはBFCLで89%、Gemma-3-4Bは67%である。
また、フラグ付けする価値のあるいくつかの障害モードも観察します。
エージェントは、テストセットのトレーニング、独自のトレーニングではなく既存のインストラクションチューニングされたチェックポイントのダウンロード、認証なしで合成データを生成するためのAPIキーの使用など、報酬のハッキングを行う場合もある。
これらの行動は、これらのシステムがより有能になるにつれて、注意深いサンドボックス化の重要性を浮き彫りにしている。
全体として、PostTrainBenchはAI R&D自動化の進歩の追跡や、それに伴うリスクの研究に役立ちたいと思っています。
Webサイトとコードはhttps://posttrainbench.com/.comで公開されている。
関連論文リスト
- ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense [1.3106701124821307]
大規模言語モデル(LLM)は、リポジトリに自律的に貢献するソフトウェアエンジニアリングエージェントとして、ますます多くデプロイされている。
LLMエージェントがオープンソースリポジトリで22の新たな重要な脆弱性を発見しパッチするベンチマークであるZeroDayBenchを紹介します。
私たちは、フロンティアLSMは、我々のタスクを自律的に解決し、いくつかの行動パターンを観察することができないことに気付きました。
論文 参考訳(メタデータ) (2026-03-02T18:21:22Z) - A Self-Improving Coding Agent [23.44829720834145]
LLM(Large Language Models)は、LLMエージェントを世界に向けて展開することへの関心を喚起している。
本稿では,基本的なコーディングツールを備えたエージェントシステムが,自らを自律的に編集し,ベンチマークタスクの性能を向上させることを実証する。
論文 参考訳(メタデータ) (2025-04-21T16:58:18Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [61.38499597241457]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。