論文の概要: Real-time Policy Distillation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/1912.12630v1
- Date: Sun, 29 Dec 2019 11:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 07:28:15.165972
- Title: Real-time Policy Distillation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるリアルタイム政策蒸留
- Authors: Yuxiang Sun and Pooyan Fazli
- Abstract要約: 政策蒸留は、より大きなネットワークからより小さな未訓練ネットワークへ制御ポリシーを転送する効果的な方法である。
既存のアプローチは計算的に非効率であり、長い蒸留時間をもたらす。
そこで我々は,教師モデルと生徒モデルとを同時に学習する,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
- 参考スコア(独自算出の注目度): 11.026828277064293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy distillation in deep reinforcement learning provides an effective way
to transfer control policies from a larger network to a smaller untrained
network without a significant degradation in performance. However, policy
distillation is underexplored in deep reinforcement learning, and existing
approaches are computationally inefficient, resulting in a long distillation
time. In addition, the effectiveness of the distillation process is still
limited to the model capacity. We propose a new distillation mechanism, called
real-time policy distillation, in which training the teacher model and
distilling the policy to the student model occur simultaneously. Accordingly,
the teacher's latest policy is transferred to the student model in real time.
This reduces the distillation time to half the original time or even less and
also makes it possible for extremely small student models to learn skills at
the expert level. We evaluated the proposed algorithm in the Atari 2600 domain.
The results show that our approach can achieve full distillation in most games,
even with compression ratios up to 1.7%.
- Abstract(参考訳): 深層強化学習における政策蒸留は, 大幅な性能低下を伴わずに, より大きなネットワークからより小さな未学習ネットワークへ制御ポリシを伝達する有効な手段を提供する。
しかし、政策蒸留は深層強化学習において未熟であり、既存のアプローチは計算効率が悪く、長い蒸留時間をもたらす。
また, 蒸留プロセスの有効性はモデル容量に限定されている。
本研究では,教師モデルの訓練と学生モデルへの蒸留を同時に行う,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
これにより、教師の最新の方針がリアルタイムで生徒モデルに移行される。
これにより、蒸留時間は元の半分かそれ以上に短縮され、非常に小さな学生モデルでも専門家レベルでスキルを習得することができる。
atari 2600ドメインにおいて提案アルゴリズムを評価した。
その結果,圧縮比が1.7%までであっても,ほとんどのゲームで完全蒸留が可能となった。
関連論文リスト
- Proximal Policy Distillation [3.2634122554914002]
学生主導型蒸留とPPOを統合した新しい政策蒸留法であるPyximal Policy Distillation (PPD)を紹介する。
我々は,幅広い強化学習環境において,PSDと学生希釈と教師希釈の2つの選択肢を比較した。
以上の結果から,PSDはサンプリング効率を向上し,典型的な政策蒸留法と比較して生徒の政策を改善することが示唆された。
論文 参考訳(メタデータ) (2024-07-21T12:08:54Z) - AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting [5.818420448447701]
適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
論文 参考訳(メタデータ) (2024-05-11T15:06:24Z) - Education distillation:getting student models to learn in shcools [15.473668050280304]
本稿では,知識蒸留における動的漸進学習を紹介する。
完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
論文 参考訳(メタデータ) (2023-11-23T05:20:18Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Online Distillation with Continual Learning for Cyclic Domain Shifts [52.707212371912476]
ドメインシフトの影響を低減するために,連続学習手法のパワーを活用して解を提案する。
我々の研究は、オンライン蒸留と継続的な学習の分野における重要な一歩であり、現実世界のアプリケーションに大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-04-03T11:15:05Z) - Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。