論文の概要: Efficient Scheduling of Data Augmentation for Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.00518v1
- Date: Wed, 1 Jun 2022 14:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 17:32:34.482989
- Title: Efficient Scheduling of Data Augmentation for Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習のためのデータ拡張の効率的なスケジューリング
- Authors: Byungchan Ko, Jungseul Ok
- Abstract要約: 深層強化学習(RL)では、データ拡張は有用な先行要素のセットを誘導するツールとして広く考えられている。
しかし、前者が一般化に有用であったとしても、RL剤に蒸留すると、しばしばRLの訓練に干渉し、試料効率を低下させる。
我々は, 任意の時間(RL後であっても)に前向きに一貫性を注入するスタンドアローンネットワーク蒸留法と, 蒸留を自動的にスケジュールする簡易かつ効率的な枠組みを考案した。
- 参考スコア(独自算出の注目度): 2.837718256830632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep reinforcement learning (RL), data augmentation is widely considered
as a tool to induce a set of useful priors about semantic consistency and
improve sample efficiency and generalization performance. However, even when
the prior is useful for generalization, distilling it to RL agent often
interferes with RL training and degenerates sample efficiency. Meanwhile, the
agent is forgetful of the prior due to the non-stationary nature of RL. These
observations suggest two extreme schedules of distillation: (i) over the entire
training; or (ii) only at the end. Hence, we devise a stand-alone network
distillation method to inject the consistency prior at any time (even after
RL), and a simple yet efficient framework to automatically schedule the
distillation. Specifically, the proposed framework first focuses on mastering
train environments regardless of generalization by adaptively deciding which
{\it or no} augmentation to be used for the training. After this, we add the
distillation to extract the remaining benefits for generalization from all the
augmentations, which requires no additional new samples. In our experiments, we
demonstrate the utility of the proposed framework, in particular, that
considers postponing the augmentation to the end of RL training.
- Abstract(参考訳): 深層強化学習(RL)では、データ拡張は意味的一貫性に関する一連の有用な先行を誘導し、サンプル効率と一般化性能を改善するツールとして広く考えられている。
しかし、前者が一般化に有用であったとしても、RL剤に蒸留すると、しばしばRLの訓練に干渉し、試料効率を低下させる。
一方、エージェントはrlの非定常性のために前もって忘れられている。
これらの観察は蒸留の2つの極端なスケジュールを示している。
(i)訓練全体、又は
(ii)最後にのみ。
そこで我々は,(rl以降であっても)いつでも一貫性を注入する単独のネットワーク蒸留法と,自動的に蒸留をスケジュールする簡易かつ効率的なフレームワークを考案する。
具体的には、まず、一般化にかかわらず、トレーニングに使用する拡張を適応的に決定することで、列車環境をマスターすることに焦点を当てる。
その後, 蒸留液を添加して, 新たな試料を必要としない全増量から, 一般化のための残りの利点を抽出する。
実験では、特にRLトレーニングの終了を延期することを考慮し、提案フレームワークの有用性を実証した。
関連論文リスト
- A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation [40.84214941048131]
RICEは強化学習のための革新的な精製手法である。
トレーニングボトルネックを突破するための説明手法が組み込まれている。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
論文 参考訳(メタデータ) (2024-05-05T22:06:42Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Even your Teacher Needs Guidance: Ground-Truth Targets Dampen
Regularization Imposed by Self-Distillation [0.0]
ネットワークアーキテクチャが同一である自己蒸留は、一般化精度を向上させるために観測されている。
我々は, 逐次ステップがモデル出力と接地目標の両方を組み込む, カーネル回帰設定における自己蒸留の反復的変種を考える。
自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。
論文 参考訳(メタデータ) (2021-02-25T18:56:09Z) - Time Matters in Using Data Augmentation for Vision-based Deep
Reinforcement Learning [4.921588282642753]
増量を使用するタイミングは、トレーニングやテストで解決すべきタスクによって重要になります。
増員によって課される正規化がテストにのみ役立つ場合、サンプルと計算の複雑さの観点からトレーニング中に使用するよりも、トレーニング後の増員を推し進める方がよい。
論文 参考訳(メタデータ) (2021-02-17T05:22:34Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。