論文の概要: Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.09493v2
- Date: Mon, 2 Sep 2024 16:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 16:42:00.392236
- Title: Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning
- Title(参考訳): Ancestral Reinforcement Learning:強化学習のためのゼロ階最適化と遺伝的アルゴリズムの統合
- Authors: So Nakashima, Tetsuya J. Kobayashi,
- Abstract要約: Ancestral Reinforcement Learning (ARL)は、ZOOの頑健な勾配推定と遺伝的アルゴリズムの探索力を組み合わせたものである。
理論的には、ARLにおける集団探索は、対象関数のKL正規化を暗黙的に誘導し、探索が強化される。
- 参考スコア(独自算出の注目度): 0.8287206589886879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) offers a fundamental framework for discovering optimal action strategies through interactions within unknown environments. Recent advancement have shown that the performance and applicability of RL can significantly be enhanced by exploiting a population of agents in various ways. Zeroth-Order Optimization (ZOO) leverages an agent population to estimate the gradient of the objective function, enabling robust policy refinement even in non-differentiable scenarios. As another application, Genetic Algorithms (GA) boosts the exploration of policy landscapes by mutational generation of policy diversity in an agent population and its refinement by selection. A natural question is whether we can have the best of two worlds that the agent population can have. In this work, we propose Ancestral Reinforcement Learning (ARL), which synergistically combines the robust gradient estimation of ZOO with the exploratory power of GA. The key idea in ARL is that each agent within a population infers gradient by exploiting the history of its ancestors, i.e., the ancestor population in the past, while maintaining the diversity of policies in the current population as in GA. We also theoretically reveal that the populational search in ARL implicitly induces the KL-regularization of the objective function, resulting in the enhanced exploration. Our results extend the applicability of populational algorithms for RL.
- Abstract(参考訳): 強化学習(RL)は、未知の環境内での相互作用を通じて最適な行動戦略を発見するための基本的なフレームワークを提供する。
近年の進歩により, RLの性能と適用性は, エージェントの集団を様々な方法で活用することによって著しく向上することが示されている。
ゼロ階最適化(ZOO)は、エージェントの集団を利用して目的関数の勾配を推定し、微分不可能なシナリオにおいても堅牢な政策改善を可能にする。
別の応用として、GA(Genematic Algorithms)は、エージェント集団におけるポリシーの多様性の変異生成によるポリシー景観の探索と、その選択による洗練を促進する。
自然の疑問は、エージェントの人口が持つことのできる2つの世界の中で、最高のものを得ることができるかどうかである。
本研究では,ZOOの頑健な勾配推定とGAの探索的パワーを相乗的に組み合わせたAncestral Reinforcement Learning (ARL)を提案する。
ARLの鍵となる考え方は、集団内の各エージェントがその祖先の歴史、すなわち過去の祖先の人口を利用して勾配を推定し、GAのように現在の人口における政策の多様性を維持することである。
また,ARLにおける集団探索は,対象関数のKL正規化を暗黙的に誘導し,探索の強化をもたらすことも理論的に明らかにした。
以上の結果から,RLに対する集団アルゴリズムの適用性の向上が期待できる。
関連論文リスト
- Global Reinforcement Learning: Beyond Linear and Convex Rewards via Submodular Semi-gradient Methods [42.04223902155739]
我々はGlobal RL(GRL)を導入し、報酬は局所的な状態ではなく、トラジェクトリー上でグローバルに定義される。
部分モジュラ最適化からアイデアを活用することで,GRL問題を古典的RL問題列に変換する新しいアルゴリズムスキームを提案する。
論文 参考訳(メタデータ) (2024-07-13T14:45:08Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文 参考訳(メタデータ) (2023-05-23T08:05:59Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - A reinforcement learning approach to resource allocation in genomic
selection [11.369433574169994]
我々は,異なる世代にまたがって限られた資源を割り当てることを自動的に学習する強化学習に基づくアルゴリズムを開発した。
本研究では,実データを用いたケーススタディを用いて,遺伝的ゲイン向上のための提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-07-22T19:55:16Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。