論文の概要: Real-time Policy Distillation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/1912.12630v1
- Date: Sun, 29 Dec 2019 11:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 07:28:15.165972
- Title: Real-time Policy Distillation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるリアルタイム政策蒸留
- Authors: Yuxiang Sun and Pooyan Fazli
- Abstract要約: 政策蒸留は、より大きなネットワークからより小さな未訓練ネットワークへ制御ポリシーを転送する効果的な方法である。
既存のアプローチは計算的に非効率であり、長い蒸留時間をもたらす。
そこで我々は,教師モデルと生徒モデルとを同時に学習する,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
- 参考スコア(独自算出の注目度): 11.026828277064293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy distillation in deep reinforcement learning provides an effective way
to transfer control policies from a larger network to a smaller untrained
network without a significant degradation in performance. However, policy
distillation is underexplored in deep reinforcement learning, and existing
approaches are computationally inefficient, resulting in a long distillation
time. In addition, the effectiveness of the distillation process is still
limited to the model capacity. We propose a new distillation mechanism, called
real-time policy distillation, in which training the teacher model and
distilling the policy to the student model occur simultaneously. Accordingly,
the teacher's latest policy is transferred to the student model in real time.
This reduces the distillation time to half the original time or even less and
also makes it possible for extremely small student models to learn skills at
the expert level. We evaluated the proposed algorithm in the Atari 2600 domain.
The results show that our approach can achieve full distillation in most games,
even with compression ratios up to 1.7%.
- Abstract(参考訳): 深層強化学習における政策蒸留は, 大幅な性能低下を伴わずに, より大きなネットワークからより小さな未学習ネットワークへ制御ポリシを伝達する有効な手段を提供する。
しかし、政策蒸留は深層強化学習において未熟であり、既存のアプローチは計算効率が悪く、長い蒸留時間をもたらす。
また, 蒸留プロセスの有効性はモデル容量に限定されている。
本研究では,教師モデルの訓練と学生モデルへの蒸留を同時に行う,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
これにより、教師の最新の方針がリアルタイムで生徒モデルに移行される。
これにより、蒸留時間は元の半分かそれ以上に短縮され、非常に小さな学生モデルでも専門家レベルでスキルを習得することができる。
atari 2600ドメインにおいて提案アルゴリズムを評価した。
その結果,圧縮比が1.7%までであっても,ほとんどのゲームで完全蒸留が可能となった。
関連論文リスト
- Education distillation:getting student models to learn in shcools [15.473668050280304]
本稿では,知識蒸留における動的漸進学習を紹介する。
完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
論文 参考訳(メタデータ) (2023-11-23T05:20:18Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Online Distillation with Continual Learning for Cyclic Domain Shifts [52.707212371912476]
ドメインシフトの影響を低減するために,連続学習手法のパワーを活用して解を提案する。
我々の研究は、オンライン蒸留と継続的な学習の分野における重要な一歩であり、現実世界のアプリケーションに大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-04-03T11:15:05Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Neural-to-Tree Policy Distillation with Policy Improvement Criterion [28.262400646275793]
ブラックボックスモデルに対する洞察を得るための可能な方法は、決定木のような解釈可能なモデルにそれを蒸留することである。
モデル動作を小さなエラーでもクローンする典型的なポリシー蒸留は、データ分散シフトをもたらす可能性がある。
本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化に転換することで, この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-08-16T05:14:54Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。