論文の概要: AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive
- arxiv url: http://arxiv.org/abs/2605.11518v2
- Date: Sun, 17 May 2026 03:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.610726
- Title: AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive
- Title(参考訳): AutoLLMResearch: LLM実験構成の自動化のためのトレーニング研究エージェント - チープから学び、費用を最適化する
- Authors: Taicheng Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang,
- Abstract要約: 不適切な構成選択は、かなりの計算資源を浪費し、モデルがその潜在能力を最大限に実現できないようにする。
従来の自動手法は、繰り返し試行錯誤が可能な安価な設定のために設計されている。
我々は,人間研究者が低忠実度実験から一般化可能な原理を学習する方法を模倣するエージェントフレームワークであるAutoLLMResearchを提案する。
- 参考スコア(独自算出の注目度): 46.53605767076999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively configuring scalable large language model (LLM) experiments, spanning architecture design, hyperparameter tuning, and beyond, is crucial for advancing LLM research, as poor configuration choices can waste substantial computational resources and prevent models from realizing their full potential. Prior automated methods are designed for low-cost settings where repeated trial and error is feasible, but scalable LLM experiments are too expensive for such extensive iteration. To our knowledge, no work has addressed the automation of high-cost LLM experiment configurations, leaving this problem labor-intensive and dependent on expert intuition. Motivated by this gap, we propose AutoLLMResearch, an agentic framework that mimics how human researchers learn generalizable principles from low-fidelity experiments and extrapolate to efficiently identify promising configurations in expensive LLM settings. The core challenge is how to enable an agent to learn, through interaction with a multi-fidelity experimental environment that captures the structure of the LLM configuration landscape. To achieve this, we propose a systematic framework with two key components: 1) LLMConfig-Gym, a multi-fidelity environment encompassing four critical LLM experiment tasks, supported by over one million GPU hours of verifiable experiment outcomes; 2) A structured training pipeline that formulates configuration research as a long-horizon Markov Decision Process and accordingly incentivizes cross-fidelity extrapolation reasoning. Extensive evaluation against diverse strong baselines on held-out experiments demonstrates the effectiveness, generalization, and interpretability of our framework, supporting its potential as a practical and general solution for scalable real-world LLM experiment automation.
- Abstract(参考訳): 拡張性のある大規模言語モデル(LLM)の実験を効果的に構成し、アーキテクチャ設計やハイパーパラメータチューニングなど、LLMの研究を進める上では不可欠である。
従来の自動手法は、繰り返し試行錯誤が可能な低コストな設定で設計されていたが、拡張性のあるLCM実験は、このような大規模なイテレーションには高すぎる。
我々の知る限り、高コストのLLM実験構成の自動化に対処する作業は行われておらず、この問題は労働集約的で専門家の直感に依存しています。
このギャップに触発されたAutoLLMResearchは、人間の研究者が低忠実度実験から一般化可能な原理を学習し、高価なLCM設定における有望な構成を効果的に識別するための外挿を模倣するエージェントフレームワークである。
中心となる課題は、LLM構成ランドスケープの構造をキャプチャする多要素実験環境との相互作用を通じて、エージェントが学習できるようにすることである。
これを実現するために,2つの主要なコンポーネントを持つ体系的フレームワークを提案する。
1) LLMConfig-Gymは、4つの重要なLLM実験タスクを含む多機能環境であり、100万時間以上のGPU実験結果によって支えられている。
2) 長期マルコフ決定過程として構成研究を定式化し, クロスフィデリティの外挿推論のインセンティブを与える構造化トレーニングパイプライン。
実証実験における多種多様な強基線に対する広範囲な評価は、我々のフレームワークの有効性、一般化、解釈可能性を示し、スケーラブルな実世界のLLM実験自動化のための実用的で汎用的なソリューションとしての可能性を支持する。
関連論文リスト
- TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration [31.598039827972727]
大規模言語モデル(LLM)は、独立した科学的タスクを実行するためにAI研究エージェントに権限を与えている。
本稿では,LLMトレーニングライフサイクル全体を自動化したマルチエージェントシステムTREXを紹介する。
論文 参考訳(メタデータ) (2026-04-15T17:38:06Z) - Modalities, a PyTorch-native Framework For Large-scale LLM Training and Research [33.56269788349648]
Modalitiesは、大規模モデルトレーニングのためのエンドツーエンドのPyTorchネイティブフレームワークである。
データ駆動型LLM研究と2つの角度から大規模なモデルトレーニングを統合する。
論文 参考訳(メタデータ) (2026-02-09T08:39:41Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Can LLMs Configure Software Tools [0.76146285961466]
ソフトウェア工学では、複雑なシステム内での最適なパフォーマンスを確保するためには、ソフトウェアツールの精巧な構成が不可欠である。
本研究では,Large-Language Models (LLMs) を利用したソフトウェア構成プロセスの合理化について検討する。
本研究は,Chat-GPTなどのLCMを用いて,開始条件を特定し,検索空間を狭め,構成効率を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T05:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。