論文の概要: Proximal Policy Distillation
- arxiv url: http://arxiv.org/abs/2407.15134v1
- Date: Sun, 21 Jul 2024 12:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:08:59.417007
- Title: Proximal Policy Distillation
- Title(参考訳): 近縁政策蒸留
- Authors: Giacomo Spigler,
- Abstract要約: 学生主導型蒸留とPPOを統合した新しい政策蒸留法であるPyximal Policy Distillation (PPD)を紹介する。
我々は,幅広い強化学習環境において,PSDと学生希釈と教師希釈の2つの選択肢を比較した。
以上の結果から,PSDはサンプリング効率を向上し,典型的な政策蒸留法と比較して生徒の政策を改善することが示唆された。
- 参考スコア(独自算出の注目度): 3.2634122554914002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Proximal Policy Distillation (PPD), a novel policy distillation method that integrates student-driven distillation and Proximal Policy Optimization (PPO) to increase sample efficiency and to leverage the additional rewards that the student policy collects during distillation. To assess the efficacy of our method, we compare PPD with two common alternatives, student-distill and teacher-distill, over a wide range of reinforcement learning environments that include discrete actions and continuous control (ATARI, Mujoco, and Procgen). For each environment and method, we perform distillation to a set of target student neural networks that are smaller, identical (self-distillation), or larger than the teacher network. Our findings indicate that PPD improves sample efficiency and produces better student policies compared to typical policy distillation approaches. Moreover, PPD demonstrates greater robustness than alternative methods when distilling policies from imperfect demonstrations. The code for the paper is released as part of a new Python library built on top of stable-baselines3 to facilitate policy distillation: `sb3-distill'.
- Abstract(参考訳): 本稿では,学生主導型蒸留とPPOを統合した新しい政策蒸留法であるPyximal Policy Distillation(PPD)を導入し,サンプル効率の向上と,学生政策が蒸留中に収集する追加報酬を活用する。
提案手法の有効性を評価するため,PPDを,個別の行動と連続的な制御を含む広範囲な強化学習環境(ATARI,Mujoco,Procgen)に対して,学生用と教師用という2つの一般的な代替手段と比較した。
各環境と方法について,教師ネットワークよりも小さい,同一である(自己蒸留),あるいは大きい,対象とする学生ニューラルネットワークに対して蒸留を行う。
以上の結果から,PSDはサンプリング効率を向上し,典型的な政策蒸留法と比較して生徒の政策を改善することが示唆された。
さらに、PDは不完全な実証からポリシーを蒸留する際の他の方法よりも強い堅牢性を示す。
この論文のコードは、stable-baselines3上に構築された新しいPythonライブラリの一部としてリリースされ、ポリシーの蒸留を容易にする。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Online Policy Distillation with Decision-Attention [23.807761525617384]
政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。
同一環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。
意思決定を伴うオンライン政策蒸留(OPD)を提案する。
論文 参考訳(メタデータ) (2024-06-08T14:40:53Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Prime-Aware Adaptive Distillation [27.66963552145635]
知識蒸留は、強力な教師ネットワークからの知識を模倣することで、学生ネットワークの性能を向上させることを目的としている。
従来の有効なハードマイニング法は蒸留には適していない。
プライム・アウェア・アダプティブ蒸留(PAD)は、蒸留におけるプライマーサンプルを知覚し、それらの効果を適応的に強調する。
論文 参考訳(メタデータ) (2020-08-04T10:53:12Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Real-time Policy Distillation in Deep Reinforcement Learning [11.026828277064293]
政策蒸留は、より大きなネットワークからより小さな未訓練ネットワークへ制御ポリシーを転送する効果的な方法である。
既存のアプローチは計算的に非効率であり、長い蒸留時間をもたらす。
そこで我々は,教師モデルと生徒モデルとを同時に学習する,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
論文 参考訳(メタデータ) (2019-12-29T11:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。