論文の概要: Differentiable Evolutionary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.13399v1
- Date: Mon, 15 Dec 2025 14:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.705624
- Title: Differentiable Evolutionary Reinforcement Learning
- Title(参考訳): 異なる進化的強化学習
- Authors: Sitao Cheng, Tianle Li, Xuhan Huang, Xunjian Yin, Difan Zou,
- Abstract要約: 本稿では,最適な報酬信号の自律的発見を可能にする二段階フレームワークであるDerL(Deriable Evolutionary Reinforcement Learning)を提案する。
DERLはメタ最適化において微分可能であり、内部ループ検証性能を強化学習を通じてメタrを更新する信号として扱う。
実験結果から,ALFWorldとScienceWorldにおけるDerLの最先端性能は,報酬に依存した手法よりも優れていた。
- 参考スコア(独自算出の注目度): 41.96953381133274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of effective reward functions presents a central and often arduous challenge in reinforcement learning (RL), particularly when developing autonomous agents for complex reasoning tasks. While automated reward optimization approaches exist, they typically rely on derivative-free evolutionary heuristics that treat the reward function as a black box, failing to capture the causal relationship between reward structure and task performance. To bridge this gap, we propose Differentiable Evolutionary Reinforcement Learning (DERL), a bilevel framework that enables the autonomous discovery of optimal reward signals. In DERL, a Meta-Optimizer evolves a reward function (i.e., Meta-Reward) by composing structured atomic primitives, guiding the training of an inner-loop policy. Crucially, unlike previous evolution, DERL is differentiable in its metaoptimization: it treats the inner-loop validation performance as a signal to update the Meta-Optimizer via reinforcement learning. This allows DERL to approximate the "meta-gradient" of task success, progressively learning to generate denser and more actionable feedback. We validate DERL across three distinct domains: robotic agent (ALFWorld), scientific simulation (ScienceWorld), and mathematical reasoning (GSM8k, MATH). Experimental results show that DERL achieves state-of-the-art performance on ALFWorld and ScienceWorld, significantly outperforming methods relying on heuristic rewards, especially in out-of-distribution scenarios. Analysis of the evolutionary trajectory demonstrates that DERL successfully captures the intrinsic structure of tasks, enabling selfimproving agent alignment without human intervention.
- Abstract(参考訳): 効果的な報酬関数の設計は、特に複雑な推論タスクのための自律エージェントを開発する際に、強化学習(RL)において中心的で、しばしば困難な課題を示す。
自動報酬最適化アプローチは存在するが、それらは典型的には、報酬関数をブラックボックスとして扱うデリバティブな進化的ヒューリスティックに依存しており、報酬構造とタスクパフォーマンスの因果関係を捉えていない。
このギャップを埋めるために、最適な報酬信号の自律的発見を可能にする二段階フレームワークである微分可能進化強化学習(DERL)を提案する。
DERLでは、メタオプティマイザは構造化された原子プリミティブを構成することで報酬関数(メタリワード)を進化させ、インナーループポリシーのトレーニングを導く。
重要なことは、従来の進化とは異なり、DERLはそのメタ最適化において微分可能であり、内部ループ検証性能を強化学習を通じてメタ最適化器を更新する信号として扱う。
これにより、DERLはタスク成功の"メタ・グラディエント"を近似し、より密集したより実用的なフィードバックを徐々に学習することが可能になる。
ロボットエージェント(ALFWorld)、科学シミュレーション(ScienceWorld)、数学的推論(GSM8k, MATH)の3分野にまたがってDERLを検証する。
実験結果から,ALFWorldとScienceWorldにおけるDerLの性能は,特にアウト・オブ・ディストリビューションのシナリオにおいて,ヒューリスティックな報酬に依存する手法よりも優れていた。
進化軌道の解析は、DERLがタスクの本質的な構造をうまく捉え、人間の介入なしに自己改善剤のアライメントを可能にすることを示した。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。
人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。
強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文 参考訳(メタデータ) (2024-06-03T13:23:27Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。