論文の概要: Survival Dynamics of Neural and Programmatic Policies in Evolutionary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.04365v1
- Date: Wed, 07 Jan 2026 20:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.897567
- Title: Survival Dynamics of Neural and Programmatic Policies in Evolutionary Reinforcement Learning
- Title(参考訳): 進化的強化学習におけるニューラル・プログラム的政策の生存ダイナミクス
- Authors: Anton Roupassov-Ruiz, Yiyang Zuo,
- Abstract要約: 進化的強化学習タスクでは、エージェントポリシーは小さな人工ニューラルネットワーク(NERL)として符号化されることが多い。
プログラムポリシー(PERL)がNERLの性能に合致するかどうかを検討する。
我々は4000件の独立試験において厳密な生存分析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In evolutionary reinforcement learning tasks (ERL), agent policies are often encoded as small artificial neural networks (NERL). Such representations lack explicit modular structure, limiting behavioral interpretation. We investigate whether programmatic policies (PERL), implemented as soft, differentiable decision lists (SDDL), can match the performance of NERL. To support reproducible evaluation, we provide the first fully specified and open-source reimplementation of the classic 1992 Artificial Life (ALife) ERL testbed. We conduct a rigorous survival analysis across 4000 independent trials utilizing Kaplan-Meier curves and Restricted Mean Survival Time (RMST) metrics absent in the original study. We find a statistically significant difference in survival probability between PERL and NERL. PERL agents survive on average 201.69 steps longer than NERL agents. Moreover, SDDL agents using learning alone (no evolution) survive on average 73.67 steps longer than neural agents using both learning and evaluation. These results demonstrate that programmatic policies can exceed the survival performance of neural policies in ALife.
- Abstract(参考訳): 進化強化学習タスク(ERL)では、エージェントポリシーは小さな人工ニューラルネットワーク(NERL)として符号化されることが多い。
このような表現は明示的なモジュラ構造を持たず、行動解釈を制限している。
我々は,プログラムポリシー (PERL) をSDDL (Software differentiable decision list) として実装し,NERLの性能に適合するかどうかを検討する。
再現性評価を支援するため,1992年の古典的人工生命(ALife)のERLテストベッドを完全かつオープンソースで実装した。
本研究は,Kaplan-Meier曲線とRestricted Mean Survival Time(RMST)を用いた4000件の独立試験の厳密な生存分析を行った。
PERLとNERLの生存確率には統計的に有意な差が認められた。
PERLエージェントは、NERLエージェントよりも平均201.69ステップ長く生存する。
さらに、学習単独(進化しない)を用いたSDDLエージェントは、学習と評価の両方を用いて神経エージェントよりも平均73.67ステップ長く生存する。
これらの結果は,ALifeにおけるニューラルポリシーの生存性能をプログラム的ポリシーが超えることを示した。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate [4.6659670917171825]
リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
論文 参考訳(メタデータ) (2024-05-24T09:33:47Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。