論文の概要: On Lottery Tickets and Minimal Task Representations in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.01648v1
- Date: Tue, 4 May 2021 17:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 13:17:04.933484
- Title: On Lottery Tickets and Minimal Task Representations in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習における宝くじ券と最小タスク表現について
- Authors: Marc Aurel Vischer, Robert Tjarko Lange, Henning Sprekeler
- Abstract要約: 政策蒸留と強化学習によって訓練されたフィードフォワードネットワークは、同一の間隔で切断可能であることを示す。
事前設計したベースライン条件を用いて,強化学習における抽選券効果の大部分がマスクによるものであることが分かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lottery ticket hypothesis questions the role of overparameterization in
supervised deep learning. But how does the distributional shift inherent to the
reinforcement learning problem affect the performance of winning lottery
tickets? In this work, we show that feed-forward networks trained via
supervised policy distillation and reinforcement learning can be pruned to the
same level of sparsity. Furthermore, we establish the existence of winning
tickets for both on- and off-policy methods in a visual navigation and classic
control task. Using a set of carefully designed baseline conditions, we find
that the majority of the lottery ticket effect in reinforcement learning can be
attributed to the identified mask. The resulting masked observation space
eliminates redundant information and yields minimal task-relevant
representations. The mask identified by iterative magnitude pruning provides an
interpretable inductive bias. Its costly generation can be amortized by
training dense agents with low-dimensional input and thereby at lower
computational cost.
- Abstract(参考訳): 抽選券仮説は、教師付きディープラーニングにおける過度パラメータ化の役割を疑問視する。
しかし、強化学習問題に内在する分布変化は、宝くじの当選性能にどのように影響するのか。
本研究では,教師付き政策蒸留と強化学習によって訓練されたフィードフォワードネットワークを,同じレベルのスパース性に分離できることを示す。
さらに,視覚ナビゲーションと古典的な制御タスクにおいて,オン・オフ・ポリシー・メソッドの当選チケットの存在を確立する。
事前設計したベースライン条件を用いて,強化学習における抽選券効果の大部分がマスクによるものであることが分かった。
その結果、マスクされた観測空間は冗長な情報を排除し、最小のタスク関連表現が得られる。
反復等級プルーニングによって識別されるマスクは、解釈可能な帰納バイアスを与える。
そのコスト発生は、低次元入力で高密度エージェントを訓練することにより、計算コストを下げることができる。
関連論文リスト
- Robust Tickets Can Transfer Better: Drawing More Transferable
Subnetworks in Transfer Learning [25.310066345466396]
Transfer Learningは、ソースタスクとリッチデータで事前訓練されたディープニューラルネットワーク(DNN)の機能表現を活用して、下流タスクの微調整を強化する。
我々は,ロバストなチケットがより優れた転送を可能にすること,すなわち,適切に誘導された敵のロバスト性によって引き起こされたワークが,バニラ宝くじよりも優れた転送性を得ることができることの発見を活用する新しい転送学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-24T05:44:42Z) - The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers [14.467509261354458]
本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは極めて有効であり,教師のFLOPの最大50%を学生の精度の低下なしに節約できることがわかった。
論文 参考訳(メタデータ) (2023-02-21T07:48:34Z) - Robust Lottery Tickets for Pre-trained Language Models [57.14316619360376]
本稿では,従来の言語モデルに隠されたロバストなチケットを識別するために,二分重マスクの学習に基づく新しい手法を提案する。
実験結果から, 従来の対向ロバスト性評価法に比べて, 提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2022-11-06T02:59:27Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - You are caught stealing my winning lottery ticket! Making a lottery
ticket claim its ownership [87.13642800792077]
Lottery ticket hypothesis (LTH) は、特別なスパースサブネットワークを活用するための有望なフレームワークとして出現する。
しかし、LTHの主な資源ボトルネックは、当選チケットのスパースマスクを見つけるのに特別なコストである。
私たちの設定は、深層モデルの知的財産権侵害から保護することに対する最近の関心に新たな次元を与えます。
論文 参考訳(メタデータ) (2021-10-30T03:38:38Z) - Universality of Deep Neural Network Lottery Tickets: A Renormalization
Group Perspective [89.19516919095904]
1つのタスクのコンテキストで見られるチケットは、おそらくは異なるアーキテクチャにわたって、同様のタスクに転送できる。
我々は、理論物理学において最も成功した道具の1つである再正規化群理論を利用する。
ここでは,大規模抽選チケット実験における当選チケットの普遍性を検討するとともに,スパース機械学習の分野での反復的等級プルーニングの成功に新たな光を当てる。
論文 参考訳(メタデータ) (2021-10-07T06:50:16Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - The Lottery Ticket Hypothesis for Object Recognition [39.186511997089575]
Lottery Ticket Hypothesisは、大規模なデータセットで訓練されたディープネットワークには、高密度ネットワークと同等のパフォーマンスを実現する小さなニューラルネットワークが含まれていると述べている。
性能低下を招くことなく、異なるサブタスクに対して最大80%の間隔で宝くじを探す方法に関するガイダンスを提供する。
論文 参考訳(メタデータ) (2020-12-08T18:59:13Z) - Towards Practical Lottery Ticket Hypothesis for Adversarial Training [78.30684998080346]
トレーニングプロセス中にはるかに高速に収束する,前述のサブネットワークのサブセットが存在することを示す。
本研究の実践的応用として,このようなサブネットワークは,対人訓練の総時間を短縮する上で有効であることを示す。
論文 参考訳(メタデータ) (2020-03-06T03:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。