Fugu-MT 論文翻訳(概要): Real-time Policy Distillation in Deep Reinforcement Learning

論文の概要: Real-time Policy Distillation in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/1912.12630v1
Date: Sun, 29 Dec 2019 11:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 07:28:15.165972
Title: Real-time Policy Distillation in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるリアルタイム政策蒸留
Authors: Yuxiang Sun and Pooyan Fazli
Abstract要約: 政策蒸留は、より大きなネットワークからより小さな未訓練ネットワークへ制御ポリシーを転送する効果的な方法である。既存のアプローチは計算的に非効率であり、長い蒸留時間をもたらす。そこで我々は,教師モデルと生徒モデルとを同時に学習する,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。
参考スコア（独自算出の注目度）: 11.026828277064293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy distillation in deep reinforcement learning provides an effective way to transfer control policies from a larger network to a smaller untrained network without a significant degradation in performance. However, policy distillation is underexplored in deep reinforcement learning, and existing approaches are computationally inefficient, resulting in a long distillation time. In addition, the effectiveness of the distillation process is still limited to the model capacity. We propose a new distillation mechanism, called real-time policy distillation, in which training the teacher model and distilling the policy to the student model occur simultaneously. Accordingly, the teacher's latest policy is transferred to the student model in real time. This reduces the distillation time to half the original time or even less and also makes it possible for extremely small student models to learn skills at the expert level. We evaluated the proposed algorithm in the Atari 2600 domain. The results show that our approach can achieve full distillation in most games, even with compression ratios up to 1.7%.
Abstract（参考訳）: 深層強化学習における政策蒸留は, 大幅な性能低下を伴わずに, より大きなネットワークからより小さな未学習ネットワークへ制御ポリシを伝達する有効な手段を提供する。しかし、政策蒸留は深層強化学習において未熟であり、既存のアプローチは計算効率が悪く、長い蒸留時間をもたらす。また, 蒸留プロセスの有効性はモデル容量に限定されている。本研究では,教師モデルの訓練と学生モデルへの蒸留を同時に行う,リアルタイム政策蒸留と呼ばれる新しい蒸留機構を提案する。これにより、教師の最新の方針がリアルタイムで生徒モデルに移行される。これにより、蒸留時間は元の半分かそれ以上に短縮され、非常に小さな学生モデルでも専門家レベルでスキルを習得することができる。 atari 2600ドメインにおいて提案アルゴリズムを評価した。その結果,圧縮比が1.7%までであっても,ほとんどのゲームで完全蒸留が可能となった。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Efficient Knowledge Distillation via Curriculum Extraction [9.320038077848709]
完全に訓練された教師ネットワークからカリキュラムを抽出できることを示し, 抽出したカリキュラムは, プログレッシブ蒸留と同等の効率性が得られることを示した。提案手法は, 単発蒸留よりも優れており, 2層ネットワークを用いたスパースパリティ学習において, プログレッシブ蒸留と類似した性能が得られる。
論文参考訳（メタデータ） (2025-03-21T19:09:41Z)
Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文参考訳（メタデータ） (2025-02-11T23:02:14Z)
Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文参考訳（メタデータ） (2024-08-14T17:59:32Z)
Proximal Policy Distillation [3.2634122554914002]
学生主導型蒸留とPPOを統合した新しい政策蒸留法であるPyximal Policy Distillation (PPD)を紹介する。我々は,幅広い強化学習環境において,PSDと学生希釈と教師希釈の2つの選択肢を比較した。以上の結果から,PSDはサンプリング効率を向上し,典型的な政策蒸留法と比較して生徒の政策を改善することが示唆された。
論文参考訳（メタデータ） (2024-07-21T12:08:54Z)
AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting [5.818420448447701]
適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
論文参考訳（メタデータ） (2024-05-11T15:06:24Z)
Education distillation:getting student models to learn in shcools [15.473668050280304]
本稿では,知識蒸留における動的漸進学習を紹介する。完全学生モデルから分割した断片化された学生モデルを下級モデルとして扱うことが提案されている。
論文参考訳（メタデータ） (2023-11-23T05:20:18Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Online Distillation with Continual Learning for Cyclic Domain Shifts [52.707212371912476]
ドメインシフトの影響を低減するために,連続学習手法のパワーを活用して解を提案する。我々の研究は、オンライン蒸留と継続的な学習の分野における重要な一歩であり、現実世界のアプリケーションに大きな影響を与える可能性がある。
論文参考訳（メタデータ） (2023-04-03T11:15:05Z)
Towards a Smaller Student: Capacity Dynamic Distillation for Efficient Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文参考訳（メタデータ） (2023-03-16T11:09:22Z)
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文参考訳（メタデータ） (2023-02-19T17:37:24Z)
Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文参考訳（メタデータ） (2022-11-27T05:14:03Z)
Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。 DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文参考訳（メタデータ） (2022-01-27T04:38:01Z)
Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4～4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文参考訳（メタデータ） (2020-09-15T17:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。