論文の概要: Distillation Policy Optimization
- arxiv url: http://arxiv.org/abs/2302.00533v3
- Date: Wed, 17 May 2023 01:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 20:17:33.226092
- Title: Distillation Policy Optimization
- Title(参考訳): 蒸留政策最適化
- Authors: Jianfei Ma
- Abstract要約: 本稿では、関心の分布的視点を取り入れて評価を行い、政策改善のために2つのデータソースを交配するアクタ批判型学習フレームワークを提案する。
本手法は, 試料の効率を向上し, 異なるレベルの補間を良好に行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy algorithms are supposed to be stable, however, sample-intensive
yet. Off-policy algorithms utilizing past experiences are deemed to be
sample-efficient, nevertheless, unstable in general. Can we design an algorithm
that can employ the off-policy data, while exploit the stable learning by
sailing along the course of the on-policy walkway? In this paper, we present an
actor-critic learning framework that borrows the distributional perspective of
interest to evaluate, and cross-breeds two sources of the data for policy
improvement, which enables fast learning and can be applied to a wide class of
algorithms. In its backbone, the variance reduction mechanisms, such as unified
advantage estimator (UAE), that extends generalized advantage estimator (GAE)
to be applicable on any state-dependent baseline, and a learned baseline, that
is competent to stabilize the policy gradient, are firstly put forward to not
merely be a bridge to the action-value function but also distill the
advantageous learning signal. Lastly, it is empirically shown that our method
improves sample efficiency and interpolates different levels well. Being of an
organic whole, its mixture places more inspiration to the algorithm design.
- Abstract(参考訳): しかし、オン・ポリシーのアルゴリズムはまだ安定しているはずだ。
過去の経験を利用したオフポリシーアルゴリズムは、一般的にはサンプル効率だが不安定であると考えられている。
法外データを活用するアルゴリズムを設計できる一方で、法外通路に沿って航行することで安定した学習を活用できるだろうか?
本稿では,関心の分布的視点を借用して評価し,高速な学習を可能にし,幅広いアルゴリズムに適用可能な,政策改善のための2つのデータソースを交互に交配する,アクタ-批判学習フレームワークを提案する。
そのバックボーンにおいて、一般化された優位推定器(GAE)を任意の状態依存ベースラインに適用するように拡張する統一的優位推定器(UAE)や、政策勾配の安定化に長けた学習ベースラインなどの分散低減機構を第一に、単にアクション値関数へのブリッジであるだけでなく、有利な学習信号を蒸留する。
最後に,本手法がサンプル効率を向上し,異なるレベルを補間できることが実証的に示される。
有機的な全体であり、その混合はアルゴリズム設計により多くのインスピレーションを与える。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Generalized Policy Improvement Algorithms with Theoretically Supported Sample Reuse [15.134707391442236]
我々は,データ駆動型学習ベース制御のためのモデルフリー深層強化学習アルゴリズムを新たに開発した。
当社の一般政策改善アルゴリズムは,オンライン手法の政策改善保証とサンプル再利用の効率化を両立させる。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Generalized Proximal Policy Optimization with Sample Reuse [8.325359814939517]
我々は、オン・ポリシー・アルゴリズムの理論的に支持された安定性の利点とオフ・ポリシー・アルゴリズムのサンプル効率を組み合わせる。
我々は、政策改善の保証を開発し、その境界を政策最適化に使用するクリッピング機構に接続する。
これは、我々がGeneralized Proximal Policy Optimization with Sample Reuseと呼ぶ、一般的なアルゴリズムの非政治バージョンを動機付けます。
論文 参考訳(メタデータ) (2021-10-29T20:22:31Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。