論文の概要: A Parametric Class of Approximate Gradient Updates for Policy
Optimization
- arxiv url: http://arxiv.org/abs/2206.08499v1
- Date: Fri, 17 Jun 2022 01:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:59:23.254331
- Title: A Parametric Class of Approximate Gradient Updates for Policy
Optimization
- Title(参考訳): 政策最適化のための近似勾配更新のパラメトリッククラス
- Authors: Ramki Gummadi, Saurabh Kumar, Junfeng Wen, Dale Schuurmans
- Abstract要約: 我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
- 参考スコア(独自算出の注目度): 47.69337420768319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches to policy optimization have been motivated from diverse
principles, based on how the parametric model is interpreted (e.g. value versus
policy representation) or how the learning objective is formulated, yet they
share a common goal of maximizing expected return. To better capture the
commonalities and identify key differences between policy optimization methods,
we develop a unified perspective that re-expresses the underlying updates in
terms of a limited choice of gradient form and scaling function. In particular,
we identify a parameterized space of approximate gradient updates for policy
optimization that is highly structured, yet covers both classical and recent
examples, including PPO. As a result, we obtain novel yet well motivated
updates that generalize existing algorithms in a way that can deliver benefits
both in terms of convergence speed and final result quality. An experimental
investigation demonstrates that the additional degrees of freedom provided in
the parameterized family of updates can be leveraged to obtain non-trivial
improvements both in synthetic domains and on popular deep RL benchmarks.
- Abstract(参考訳): 政策最適化のアプローチは、パラメトリックモデルをどのように解釈するか(例えば、価値と政策表現)、学習目標をどのように定式化するかに基づいて、様々な原則から動機づけられているが、それらは期待されたリターンを最大化する共通の目標を共有している。
政策最適化手法の共通性をよりよく把握し,重要な違いを識別するために,勾配形式とスケーリング関数の限定的な選択という観点から,基盤となる更新を再表現する統一的な視点を開発する。
特に、PPOを含む古典的および最近の事例を網羅しながら、高度に構造化された政策最適化のための近似勾配更新のパラメータ化空間を同定する。
その結果、収束速度と最終的な結果品質の両方の利点を享受できる方法で、既存のアルゴリズムを一般化する新たなモチベーションが得られた。
実験的研究により、パラメータ化された一連の更新で提供される追加の自由度が、合成ドメインと一般的なディープrlベンチマークの両方で非自明な改善を得るために活用できることが示されている。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - A Novel Framework for Policy Mirror Descent with General
Parameterization and Linear Convergence [15.807079236265714]
ミラー降下に基づくポリシー最適化のための新しいフレームワークを提案する。
一般パラメータ化を含む政策次数法に対して線形収束を保証する最初の結果を得る。
論文 参考訳(メタデータ) (2023-01-30T18:21:48Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。