論文の概要: AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery
- arxiv url: http://arxiv.org/abs/2603.07300v1
- Date: Sat, 07 Mar 2026 17:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.21522
- Title: AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery
- Title(参考訳): AutoResearch-RL: 自律的ニューラルネットワーク発見のための永続的自己評価強化学習エージェント
- Authors: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI,
- Abstract要約: 本稿では、強化学習エージェントが人間の監督なしにオープンエンドニューラルネットワーク研究を行うためのフレームワークであるAutoResearch-RLを提案する。
我々はこれをマルコフ決定過程として定式化し、軽微な仮定の下で収束保証を導出し、1つのGPUナノチャット事前学習ベンチマークで経験的に実証する。
- 参考スコア(独自算出の注目度): 5.110708177092157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
- Abstract(参考訳): 本稿では,強化学習エージェントが人間の監督なしにオープン・エンド・ニューラル・アーキテクチャとハイパーパラメータ・リサーチを行い,終末オラクル信号の収束や資源の枯渇まで永久に実行するフレームワークであるAutoResearch-RLを提案する。
各ステップにおいて、エージェントは、ターゲットのトレーニングスクリプトにコード修正を提案し、固定されたウォールクロック時間予算の下で実行し、バイト当たりの検証ビット(val-bpb)から派生したスカラー報酬を観察し、そのポリシーをPPO(Proximal Policy Optimisation)を介して更新する。
重要な設計上の洞察は、3つの関心事の分離である。
i) 公正な相互実験比較を保証する凍結環境(データパイプライン、評価プロトコル、定数)
(ii) エージェントの編集可能な状態を表す変更可能なターゲットファイル(train.py)
三 メタラーナー(RLエージェント自体)で、実験結果の増大軌跡を蓄積し、それを用いてその後の提案を通知する。
我々はこれをマルコフ決定プロセスとして定式化し、軽微な仮定の下で収束を保証することを導出し、AutoResearch-RLが1つのGPUナノチャット事前学習ベンチマークで実証的に示す。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - PDRL: Multi-Agent based Reinforcement Learning for Predictive Monitoring [10.896362653486884]
本研究では,時系列予測環境における複数のRLエージェントを用いた予測深度学習(PDRL)を提案する。
このフレームワークは,交通・天気予報の今後の状況を知ることができ,各エピソードにおいて累積報酬が徐々に増加しつつある。
論文 参考訳(メタデータ) (2023-09-19T12:35:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。