論文の概要: Optimism and Adaptivity in Policy Optimization
- arxiv url: http://arxiv.org/abs/2306.10587v1
- Date: Sun, 18 Jun 2023 15:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:43:29.277978
- Title: Optimism and Adaptivity in Policy Optimization
- Title(参考訳): 政策最適化における楽観性と適応性
- Authors: Veronica Chelu, Tom Zahavy, Arthur Guez, Doina Precup, Sebastian
Flennerhag
- Abstract要約: 我々は,強化学習(RL)における政策最適化手法の統一パラダイムに向けて,求心性と強調性を通じて研究する。
我々は、2つのインターリービングステップの繰り返し適用として、一見無関係なポリシー最適化アルゴリズムを再検討した。
我々は、この共有レンズを用いて、ソフトで楽観的なポリシー、自然なアクター批判法、前方探索に基づくモデルベースのポリシー改善、メタ学習アルゴリズムなど、他のよく知られたアルゴリズムを共同で表現する。
- 参考スコア(独自算出の注目度): 52.973611134797935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We work towards a unifying paradigm for accelerating policy optimization
methods in reinforcement learning (RL) through \emph{optimism} \&
\emph{adaptivity}. Leveraging the deep connection between policy iteration and
policy gradient methods, we recast seemingly unrelated policy optimization
algorithms as the repeated application of two interleaving steps (i) an
\emph{optimistic policy improvement operator} maps a prior policy $\pi_t$ to a
hypothesis $\pi_{t+1}$ using a \emph{gradient ascent prediction}, followed by
(ii) a \emph{hindsight adaptation} of the optimistic prediction based on a
partial evaluation of the performance of $\pi_{t+1}$. We use this shared lens
to jointly express other well-known algorithms, including soft and optimistic
policy iteration, natural actor-critic methods, model-based policy improvement
based on forward search, and meta-learning algorithms. By doing so, we shed
light on collective theoretical properties related to acceleration via optimism
\& adaptivity. Building on these insights, we design an \emph{adaptive \&
optimistic policy gradient} algorithm via meta-gradient learning, and
empirically highlight several design choices pertaining to optimism, in an
illustrative task.
- Abstract(参考訳): 我々は,強化学習(RL)における政策最適化手法の高速化のための統一パラダイムを,<emph{optimism} \& \emph{adaptivity} を通じて進める。
ポリシー反復法とポリシー勾配法との深い関係を生かして、一見無関係なポリシー最適化アルゴリズムを2つのインターリーブステップの繰り返し適用として再キャストする。
i) \emph{optimistic policy improve operator} は、先行ポリシー $\pi_t$ を \emph{gradient ascent prediction} を用いて仮説 $\pi_{t+1} にマッピングし、次に続く。
(ii)$\pi_{t+1}$のパフォーマンスの部分評価に基づく楽観的予測のemph{hindsight adaptation}。
我々はこの共有レンズを用いて、ソフトで楽観的なポリシー反復、自然なアクター批判法、前方探索に基づくモデルベースのポリシー改善、メタ学習アルゴリズムなど、他のよく知られたアルゴリズムを共同で表現する。
そうすることで、オプティミズム \& 適応性による加速度に関連する集合的理論的性質に光を当てた。
これらの知見に基づいて,メタグラディエント・ラーニングによる<emph{adaptive \& optistic policy gradient} アルゴリズムを設計し,最適性に関連するいくつかの設計選択を実証的に強調する。
関連論文リスト
- An accelerate Prediction Strategy for Dynamic Multi-Objective Optimization [7.272641346606365]
本稿では,進化的アルゴリズムフレームワークにおける予測戦略の高速化のための新しいアプローチを提案する。
本稿では,アルゴリズムの探索動作を予測・調整するために,二階微分を組み込んだ適応予測戦略を提案する。
標準DMOPのベンチマーク問題を用いて,提案手法の性能を4つの最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2024-10-08T08:13:49Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。