論文の概要: Enhancing Generalization and Plasticity for Sample Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.10711v1
- Date: Mon, 19 Jun 2023 06:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:06:45.937229
- Title: Enhancing Generalization and Plasticity for Sample Efficient
Reinforcement Learning
- Title(参考訳): 有効強化学習のための一般化と塑性の強化
- Authors: Hojoon Lee, Hanseul Cho, Hyunseung Kim, Daehoon Gwak, Joonkee Kim,
Jaegul Choo, Se-Young Yun, Chulhee Yun
- Abstract要約: Off-policyReinforcement Learning (RL)アルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を改善することができる。
この課題の実証的な分析を行い、モデルの適応性を改善する上で、一般化可能性と可塑性が異なる役割を担っていることを発見した。
本稿では,Sharpness-Aware Minimization (SAM) とリセット機構の併用を提案する。
- 参考スコア(独自算出の注目度): 39.3620042405046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Reinforcement Learning (RL), enhancing sample efficiency is crucial,
particularly in scenarios when data acquisition is costly and risky. In
principle, off-policy RL algorithms can improve sample efficiency by allowing
multiple updates per environment interaction. However, these multiple updates
often lead to overfitting, which decreases the network's ability to adapt to
new data. We conduct an empirical analysis of this challenge and find that
generalizability and plasticity constitute different roles in improving the
model's adaptability. In response, we propose a combined usage of
Sharpness-Aware Minimization (SAM) and a reset mechanism. SAM seeks wide,
smooth minima, improving generalization, while the reset mechanism, through
periodic reinitialization of the last few layers, consistently injects
plasticity into the model. Through extensive empirical studies, we demonstrate
that this combined usage improves sample efficiency and computational cost on
the Atari-100k and DeepMind Control Suite benchmarks.
- Abstract(参考訳): 強化学習(RL)では、特にデータ取得が高価でリスクの高いシナリオにおいて、サンプル効率の向上が不可欠である。
原則として、オフポリシーrlアルゴリズムは、環境インタラクション毎に複数の更新を可能にすることにより、サンプル効率を向上させることができる。
しかし、これらの複数の更新はしばしば過度に適合し、ネットワークが新しいデータに適応する能力を低下させる。
この課題を実証分析し, 一般化性と可塑性がモデルの適応性を改善する上で異なる役割を担っていることを見出した。
そこで本研究では,Sharpness-Aware Minimization (SAM) とリセット機構の併用を提案する。
SAMは、広範囲で滑らかなミニマムを求め、一般化を改善し、リセット機構は、最後の数層の周期的再初期化を通じて、モデルに塑性を一貫して注入する。
本研究では,Atari-100kベンチマークとDeepMind Control Suiteベンチマークのサンプル効率と計算コストの向上を実証した。
関連論文リスト
- Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。
可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。
可塑性注入は 代替方法に比べて より強い性能を得る
論文 参考訳(メタデータ) (2023-05-24T20:41:35Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Unveiling the role of plasticity rules in reservoir computing [0.0]
Reservoir Computing (RC) は機械学習において魅力的なアプローチである。
我々は,RCの性能向上につながる変化に対して,塑性規則が果たす役割を分析する。
論文 参考訳(メタデータ) (2021-01-14T19:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。