Fugu-MT 論文翻訳(概要): Generalized Proximal Policy Optimization with Sample Reuse

論文の概要: Generalized Proximal Policy Optimization with Sample Reuse

arxiv url: http://arxiv.org/abs/2111.00072v1
Date: Fri, 29 Oct 2021 20:22:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 12:58:15.884693
Title: Generalized Proximal Policy Optimization with Sample Reuse
Title（参考訳）: サンプル再利用による一般化近位政策最適化
Authors: James Queeney, Ioannis Ch. Paschalidis, Christos G. Cassandras
Abstract要約: 我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
参考スコア（独自算出の注目度）: 8.325359814939517
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In real-world decision making tasks, it is critical for data-driven reinforcement learning methods to be both stable and sample efficient. On-policy methods typically generate reliable policy improvement throughout training, while off-policy methods make more efficient use of data through sample reuse. In this work, we combine the theoretically supported stability benefits of on-policy algorithms with the sample efficiency of off-policy algorithms. We develop policy improvement guarantees that are suitable for the off-policy setting, and connect these bounds to the clipping mechanism used in Proximal Policy Optimization. This motivates an off-policy version of the popular algorithm that we call Generalized Proximal Policy Optimization with Sample Reuse. We demonstrate both theoretically and empirically that our algorithm delivers improved performance by effectively balancing the competing goals of stability and sample efficiency.
Abstract（参考訳）: 実世界の意思決定タスクでは、データ駆動型強化学習手法が安定かつサンプル効率の両方で重要である。オンポリシーメソッドは通常、トレーニングを通して信頼できるポリシー改善を生成するが、オフポリシーメソッドはサンプル再利用を通じてデータをより効率的に利用する。本研究では,オンポリシーアルゴリズムの理論的に支持される安定性の利点とオフポリシーアルゴリズムのサンプル効率を組み合わせる。我々は、オフポリシー設定に適したポリシー改善保証を開発し、これらの境界を近位政策最適化に使用されるクリッピング機構に接続する。これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治的バージョンを動機付けます。我々は,安定性とサンプル効率の競合する目標を効果的にバランスさせることにより,アルゴリズムが優れた性能をもたらすことを理論的および実証的に証明する。

関連論文リスト

Improving DAPO from a Mixed-Policy Perspective [0.0]
本稿では,動的sAmpling Policy Optimization (DAPO)アルゴリズムに2つの新しい修正を加えている。まず、政治以外の経験を提供するための、事前訓練された安定した指導方針を取り入れた手法を提案する。次に、このアイデアを拡張してゼロ逆サンプルを再利用し、しばしば動的サンプリング戦略によって破棄される。
論文参考訳（メタデータ） (2025-07-17T09:12:09Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文参考訳（メタデータ） (2023-06-18T15:50:57Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文参考訳（メタデータ） (2023-02-01T15:59:57Z)
A Policy Optimization Method Towards Optimal-time Stability [15.722871779526526]
サンプリングに基づくリアプノフ安定性を取り入れた政策最適化手法を提案する。我々のアプローチは、最適時間内にシステムの状態が平衡点に達することを可能にする。
論文参考訳（メタデータ） (2023-01-02T04:19:56Z)
Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文参考訳（メタデータ） (2022-06-28T02:56:12Z)
Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文参考訳（メタデータ） (2022-03-24T01:04:17Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文参考訳（メタデータ） (2020-06-14T06:36:18Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文参考訳（メタデータ） (2020-01-08T10:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。