論文の概要: Reflective Policy Optimization
- arxiv url: http://arxiv.org/abs/2406.03678v1
- Date: Thu, 6 Jun 2024 01:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:45:29.527919
- Title: Reflective Policy Optimization
- Title(参考訳): 反射政策最適化
- Authors: Yaozhong Gan, Renye Yan, Zhe Wu, Junliang Xing,
- Abstract要約: リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。
RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
- 参考スコア(独自算出の注目度): 20.228281670899204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy reinforcement learning methods, like Trust Region Policy Optimization (TRPO) and Proximal Policy Optimization (PPO), often demand extensive data per update, leading to sample inefficiency. This paper introduces Reflective Policy Optimization (RPO), a novel on-policy extension that amalgamates past and future state-action information for policy optimization. This approach empowers the agent for introspection, allowing modifications to its actions within the current state. Theoretical analysis confirms that policy performance is monotonically improved and contracts the solution space, consequently expediting the convergence procedure. Empirical results demonstrate RPO's feasibility and efficacy in two reinforcement learning benchmarks, culminating in superior sample efficiency. The source code of this work is available at https://github.com/Edgargan/RPO.
- Abstract(参考訳): Trust Region Policy Optimization (TRPO) や Proximal Policy Optimization (PPO) のようなオンライン強化学習手法は、しばしば更新毎に広範囲なデータを要求するため、サンプルの非効率性が要求される。
本稿では,過去と将来の政策最適化のための状態対応情報とを一致させる新しい政治拡張であるリフレクティブ・ポリシー・オプティマイゼーション(RPO)を紹介する。
このアプローチはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
理論的解析により、政策性能が単調に改善され、解空間が収縮し、結果として収束手続きが速くなることが確認される。
2つの強化学習ベンチマークにおいて, RPOの有効性と有効性を示し, 優れた試料効率が得られた。
この作業のソースコードはhttps://github.com/Edgargan/RPO.comで公開されている。
関連論文リスト
- Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。
我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。
ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文 参考訳(メタデータ) (2024-06-06T09:29:40Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。