論文の概要: Discovered Policy Optimisation
- arxiv url: http://arxiv.org/abs/2210.05639v1
- Date: Tue, 11 Oct 2022 17:32:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:27:37.980898
- Title: Discovered Policy Optimisation
- Title(参考訳): 政策最適化の発見
- Authors: Chris Lu, Jakub Grudzien Kuba, Alistair Letcher, Luke Metz, Christian
Schroeder de Witt, Jakob Foerster
- Abstract要約: メタラーニングによってミラーラーニング空間を探索する。
LPOを分析することで、政策最適化に関する独自の洞察を得ることができます。
我々は、新しい閉形式RLアルゴリズム、Discovered Policy optimizationを定式化する。
- 参考スコア(独自算出の注目度): 17.458523575470384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last decade has been revolutionary for reinforcement learning (RL) - it
can now solve complex decision and control problems. Successful RL methods were
handcrafted using mathematical derivations, intuition, and experimentation.
This approach has a major shortcoming: It results in specific solutions to the
RL problem, rather than a protocol for discovering efficient and robust
methods. In contrast, the emerging field of meta-learning provides a toolkit
for automatic machine learning method optimisation, potentially addressing this
flaw. However, black-box approaches which attempt to discover RL algorithms
with minimal prior structure have thus far not been successful. Mirror
Learning, which includes RL algorithms, such as PPO, offers a potential
framework. In this paper we explore the Mirror Learning space by meta-learning
a "drift" function. We refer to the result as Learnt Policy Optimisation (LPO).
By analysing LPO we gain original insights into policy optimisation which we
use to formulate a novel, closed-form RL algorithm, Discovered Policy
Optimisation (DPO). Our experiments in Brax environments confirm
state-of-the-art performance of LPO and DPO, as well as their transfer to
unseen settings.
- Abstract(参考訳): この10年は強化学習(RL)に革命的であり、複雑な意思決定と制御の問題を解決することができる。
成功したRL法は、数学的導出、直観、実験を用いて手作りされた。
このアプローチには大きな欠点があり、効率的でロバストなメソッドを発見するためのプロトコルではなく、rl問題に対する特定の解決策をもたらす。
対照的に、メタ学習の新興分野は、自動機械学習メソッド最適化のためのツールキットを提供し、この欠陥に対処する可能性がある。
しかし、最小の事前構造を持つRLアルゴリズムを発見しようとするブラックボックスアプローチは、今のところ成功していない。
PPOのようなRLアルゴリズムを含むミラーラーニングは、潜在的なフレームワークを提供する。
本稿では,「ドリフト」関数をメタラーニングすることでミラーラーニング空間を探索する。
我々は、その結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy Optimisation (DPO)を定式化するポリシー最適化に関する独自の洞察を得る。
ブラックス環境における実験により,LPOとDPOの最先端性能が確認できた。
関連論文リスト
- DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Mirror Learning: A Unifying Framework of Policy Optimisation [1.6114012813668934]
総合政策改善(GPI)と信頼領域学習(TRL)は、現代強化学習(RL)における主要な枠組みである。
TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であることを示す。
論文 参考訳(メタデータ) (2022-01-07T09:16:03Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。