論文の概要: Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models
- arxiv url: http://arxiv.org/abs/2603.28416v1
- Date: Mon, 30 Mar 2026 13:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.411235
- Title: Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models
- Title(参考訳): 大規模言語モデルによる強化学習アルゴリズムの進化的発見
- Authors: Alkis Sygkounas, Amy Loutfi, Andreas Persson,
- Abstract要約: 強化学習アルゴリズムは、通常手作業で設計され、修正される学習更新ルールによって定義される。
本稿では,完全学習手順を実装した更新ルールを直接検索することで,強化学習アルゴリズムを発見するための進化的枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.890720884484336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms are defined by their learning update rules, which are typically hand-designed and fixed. We present an evolutionary framework for discovering reinforcement learning algorithms by searching directly over executable update rules that implement complete training procedures. The approach builds on REvolve, an evolutionary system that uses large language models as generative variation operators, and extends it from reward-function discovery to algorithm discovery. To promote the emergence of nonstandard learning rules, the search excludes canonical mechanisms such as actor--critic structures, temporal-difference losses, and value bootstrapping. Because reinforcement learning algorithms are highly sensitive to internal scalar parameters, we introduce a post-evolution refinement stage in which a large language model proposes feasible hyperparameter ranges for each evolved update rule. Evaluated end-to-end by full training runs on multiple Gymnasium benchmarks, the discovered algorithms achieve competitive performance relative to established baselines, including SAC, PPO, DQN, and A2C.
- Abstract(参考訳): 強化学習アルゴリズムは、通常手作業で設計され、修正される学習更新ルールによって定義される。
本稿では,完全学習手順を実装した更新ルールを直接検索することで,強化学習アルゴリズムを発見するための進化的枠組みを提案する。
このアプローチは、大きな言語モデルを生成的変動演算子として使用する進化的システムであるRevolveの上に構築され、報酬関数発見からアルゴリズム発見まで拡張されている。
非標準学習規則の出現を促進するため,アクター批判構造,時間差損失,値ブートストラップなどの標準的メカニズムを除外した。
強化学習アルゴリズムは内部スカラーパラメータに非常に敏感であるため、進化した更新ルールごとに大きな言語モデルが実現可能なハイパーパラメータ範囲を提案する進化後の改善段階を導入する。
複数のGymnasiumベンチマーク上でのフルトレーニングによるエンドツーエンドの評価では、SAC、PPO、DQN、A2Cといった既存のベースラインと比較して、競合的なパフォーマンスを実現する。
関連論文リスト
- Discovering Multiagent Learning Algorithms with Large Language Models [8.649235365712004]
我々は,大規模言語モデルを用いた進化的符号化エージェントであるAlphaEvolveを用いて,新しいマルチエージェント学習アルゴリズムを自動発見する。
ゲーム理論学習の2つの異なるパラダイムのための新しい変種を進化させることにより、この枠組みの一般化を実証する。
論文 参考訳(メタデータ) (2026-02-18T22:41:00Z) - Evolutionary Strategies lead to Catastrophic Forgetting in LLMs [51.91763220981834]
進化戦略(Evolutionary Strategies, ES)は、最近、従来の学習アルゴリズムの勾配のない代替品として再登場した。
ESは計算予算に匹敵する計算量で、数学や推論タスクのGRPOに近いパフォーマンス数に達することができる。
ESは、事前能力の大幅な忘れを伴い、オンラインのトレーニングモデルの適用性を制限している。
論文 参考訳(メタデータ) (2026-01-28T18:59:34Z) - Discovering Temporally-Aware Reinforcement Learning Algorithms [42.016150906831776]
既存の2つの目的発見アプローチに簡単な拡張を提案する。
一般的に使用されるメタ段階的アプローチは適応的目的関数の発見に失敗する。
論文 参考訳(メタデータ) (2024-02-08T17:07:42Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - In-context Reinforcement Learning with Algorithm Distillation [35.72003039559626]
本稿では,ニューラルネットワークに強化学習アルゴリズムを蒸留する手法を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。
学習履歴のデータセットは、ソースRLアルゴリズムによって生成され、その後、因果変換器は、先行した学習履歴を文脈として、自己回帰的に行動を予測することによって訓練される。
我々は,ADが様々な環境において,スパース報酬,タスク構造,ピクセルベースの観察でコンテキストを学習できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習できることを見出した。
論文 参考訳(メタデータ) (2022-10-25T17:57:49Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。