論文の概要: Mirror Learning: A Unifying Framework of Policy Optimisation
- arxiv url: http://arxiv.org/abs/2201.02373v2
- Date: Tue, 11 Jan 2022 15:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 00:34:26.184200
- Title: Mirror Learning: A Unifying Framework of Policy Optimisation
- Title(参考訳): ミラーラーニング:政策最適化の統一的枠組み
- Authors: Jakub Grudzien Kuba, Christian Schroeder de Witt, Jakob Foerster
- Abstract要約: 総合政策改善(GPI)と信頼領域学習(TRL)は、現代強化学習(RL)における主要な枠組みである。
TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であることを示す。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General policy improvement (GPI) and trust-region learning (TRL) are the
predominant frameworks within contemporary reinforcement learning (RL), which
serve as the core models for solving Markov decision processes (MDPs).
Unfortunately, in their mathematical form, they are sensitive to modifications,
and thus, the practical instantiations that implement them do not automatically
inherit their improvement guarantees. As a result, the spectrum of available
rigorous MDP-solvers is narrow. Indeed, many state-of-the-art (SOTA)
algorithms, such as TRPO and PPO, are not proven to converge. In this paper, we
propose \textsl{mirror learning} -- a general solution to the RL problem. We
reveal GPI and TRL to be but small points within this far greater space of
algorithms which boasts the monotonic improvement property and converges to the
optimal policy. We show that virtually all SOTA algorithms for RL are instances
of mirror learning, and thus suggest that their empirical performance is a
consequence of their theoretical properties, rather than of approximate
analogies. Excitingly, we show that mirror learning opens up a whole new space
of policy learning methods with convergence guarantees.
- Abstract(参考訳): 総合政策改善(GPI)と信頼領域学習(TRL)は、マルコフ決定プロセス(MDP)のコアモデルとして機能する、現代強化学習(RL)における主要なフレームワークである。
残念なことに、それらの数学的形式は修正に敏感であるため、それらを実装する実用的なインスタンス化は自動的に改善保証を継承しない。
その結果、利用可能な厳密なMDP溶媒のスペクトルは狭い。
実際、TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
本稿では,RL問題に対する一般解である「textsl{mirror learning}」を提案する。
我々は,GPI と TRL は,モノトニック改善特性を誇示し,最適ポリシーに収束する,このはるかに大きなアルゴリズム空間内の小さな点であることを明らかにした。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であり、その経験的性能は近似的な類似ではなく理論的性質の結果であることを示す。
興味深いことに、ミラー学習は、収束保証を伴う政策学習手法の全く新しい空間を開くことを示す。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Towards an Information Theoretic Framework of Context-Based Offline
Meta-Reinforcement Learning [50.976910714839065]
コンテクストベースのOMRL(COMRL)は,効率的なタスク表現を前提としたユニバーサルポリシーの学習を目的としている。
我々はCOMRLアルゴリズムが,タスク変数$boldsymbolM$と,その潜在表現$boldsymbolZ$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
理論的な洞察と情報ボトルネックの原理に基づいて、我々はUNICORNと呼ばれる新しいアルゴリズムに到達し、RLベンチマークの幅広い範囲にわたって顕著な一般化を示す。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Discovered Policy Optimisation [17.458523575470384]
メタラーニングによってミラーラーニング空間を探索する。
即時結果を学習政策最適化(LPO)と呼ぶ。
LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy optimization (DPO)の定式化に使用するポリシー最適化に関する独自の洞察を得る。
論文 参考訳(メタデータ) (2022-10-11T17:32:11Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Mirror Descent Policy Optimization [41.46894905097985]
MDPO (Em mirror descent Policy Optimization) と呼ばれる効率的なRLアルゴリズムを提案する。
MDPOは、信頼領域問題を概ね解決することで、ポリシーを反復的に更新する。
本稿では,オンラインMDPOと,TRPOとPPOという2つの一般的な信頼領域RLアルゴリズムの関連性を強調し,信頼領域制約を明示的に実施することは,TRPOの性能向上に必要ではないことを示す。
論文 参考訳(メタデータ) (2020-05-20T01:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。