論文の概要: Discovered Policy Optimisation
- arxiv url: http://arxiv.org/abs/2210.05639v2
- Date: Thu, 13 Oct 2022 02:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:26:49.908795
- Title: Discovered Policy Optimisation
- Title(参考訳): 政策最適化の発見
- Authors: Chris Lu, Jakub Grudzien Kuba, Alistair Letcher, Luke Metz, Christian
Schroeder de Witt, Jakob Foerster
- Abstract要約: メタラーニングによってミラーラーニング空間を探索する。
即時結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy optimization (DPO)の定式化に使用するポリシー最適化に関する独自の洞察を得る。
- 参考スコア(独自算出の注目度): 17.458523575470384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tremendous progress has been made in reinforcement learning (RL) over the
past decade. Most of these advancements came through the continual development
of new algorithms, which were designed using a combination of mathematical
derivations, intuitions, and experimentation. Such an approach of creating
algorithms manually is limited by human understanding and ingenuity. In
contrast, meta-learning provides a toolkit for automatic machine learning
method optimisation, potentially addressing this flaw. However, black-box
approaches which attempt to discover RL algorithms with minimal prior structure
have thus far not outperformed existing hand-crafted algorithms. Mirror
Learning, which includes RL algorithms, such as PPO, offers a potential
middle-ground starting point: while every method in this framework comes with
theoretical guarantees, components that differentiate them are subject to
design. In this paper we explore the Mirror Learning space by meta-learning a
"drift" function. We refer to the immediate result as Learnt Policy
Optimisation (LPO). By analysing LPO we gain original insights into policy
optimisation which we use to formulate a novel, closed-form RL algorithm,
Discovered Policy Optimisation (DPO). Our experiments in Brax environments
confirm state-of-the-art performance of LPO and DPO, as well as their transfer
to unseen settings.
- Abstract(参考訳): 過去10年間、強化学習(rl)において大きな進歩を遂げてきた。
これらの進歩のほとんどは、数学的導出、直観、実験の組み合わせを用いて設計された新しいアルゴリズムの継続的な開発によってもたらされた。
このようなアルゴリズムを手動で作るアプローチは、人間の理解と創発によって制限される。
これとは対照的に、メタラーニングは自動機械学習メソッドの最適化のためのツールキットを提供する。
しかし、最小の事前構造を持つRLアルゴリズムを探索しようとするブラックボックスアプローチは、今のところ既存の手作りアルゴリズムよりも優れていない。
PPOのようなRLアルゴリズムを含むミラーラーニングは、潜在的な中核的な出発点を提供する:このフレームワークのすべてのメソッドには理論的保証があるが、それらを区別するコンポーネントは設計される。
本稿では,「ドリフト」関数をメタラーニングすることでミラーラーニング空間を探索する。
即時結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy Optimisation (DPO)を定式化するポリシー最適化に関する独自の洞察を得る。
ブラックス環境における実験により,LPOとDPOの最先端性能が確認できた。
関連論文リスト
- DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Mirror Learning: A Unifying Framework of Policy Optimisation [1.6114012813668934]
総合政策改善(GPI)と信頼領域学習(TRL)は、現代強化学習(RL)における主要な枠組みである。
TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であることを示す。
論文 参考訳(メタデータ) (2022-01-07T09:16:03Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。