論文の概要: PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.10711v2
- Date: Mon, 30 Oct 2023 20:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:29:56.149209
- Title: PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning
- Title(参考訳): PLASTIC: 有効強化学習のための入力とラベルの塑性の改善
- Authors: Hojoon Lee, Hanseul Cho, Hyunseung Kim, Daehoon Gwak, Joonkee Kim,
Jaegul Choo, Se-Young Yun, Chulhee Yun
- Abstract要約: 強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
- 参考スコア(独自算出の注目度): 54.409634256153154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Reinforcement Learning (RL), enhancing sample efficiency is crucial,
particularly in scenarios when data acquisition is costly and risky. In
principle, off-policy RL algorithms can improve sample efficiency by allowing
multiple updates per environment interaction. However, these multiple updates
often lead the model to overfit to earlier interactions, which is referred to
as the loss of plasticity. Our study investigates the underlying causes of this
phenomenon by dividing plasticity into two aspects. Input plasticity, which
denotes the model's adaptability to changing input data, and label plasticity,
which denotes the model's adaptability to evolving input-output relationships.
Synthetic experiments on the CIFAR-10 dataset reveal that finding smoother
minima of loss landscape enhances input plasticity, whereas refined gradient
propagation improves label plasticity. Leveraging these findings, we introduce
the PLASTIC algorithm, which harmoniously combines techniques to address both
concerns. With minimal architectural modifications, PLASTIC achieves
competitive performance on benchmarks including Atari-100k and Deepmind Control
Suite. This result emphasizes the importance of preserving the model's
plasticity to elevate the sample efficiency in RL. The code is available at
https://github.com/dojeon-ai/plastic.
- Abstract(参考訳): 強化学習(RL)では、特にデータ取得が高価でリスクの高いシナリオにおいて、サンプル効率の向上が不可欠である。
原則として、オフポリシーrlアルゴリズムは、環境インタラクション毎に複数の更新を可能にすることにより、サンプル効率を向上させることができる。
しかしながら、これらの複数の更新は、しばしば、可塑性の喪失と呼ばれる以前の相互作用に過度に適合するモデルにつながる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
入力可塑性(英: Input plasticity)とは、入力データの変更に対するモデルの適応性、および入力-出力関係の進化に対するモデルの適応性を示すラベル可塑性である。
cifar-10データセットの合成実験により、より滑らかなロスランドスケープの発見は入力可塑性を増加させ、一方、洗練された勾配伝播はラベル可塑性を改善することが判明した。
これらの知見を活かしてPLASTICアルゴリズムを導入し,両問題に対処する手法を調和的に組み合わせた。
最小限のアーキテクチャ変更により、PLASTICはAtari-100kやDeepmind Control Suiteといったベンチマーク上での競合性能を達成した。
この結果は、RLの試料効率を高めるためにモデルの可塑性を維持することの重要性を強調している。
コードはhttps://github.com/dojeon-ai/plasticで入手できる。
関連論文リスト
- Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - Synthetic Image Learning: Preserving Performance and Preventing Membership Inference Attacks [5.0243930429558885]
本稿では,下流分類器の学習のための合成データの生成と利用を最適化するパイプラインである知識リサイクル(KR)を紹介する。
このパイプラインの核心は生成的知識蒸留(GKD)であり、情報の品質と有用性を大幅に向上させる技術が提案されている。
その結果、実データと合成データでトレーニングされたモデルと、実データでトレーニングされたモデルとの性能差が著しく低下した。
論文 参考訳(メタデータ) (2024-07-22T10:31:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。
可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。
可塑性注入は 代替方法に比べて より強い性能を得る
論文 参考訳(メタデータ) (2023-05-24T20:41:35Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Unveiling the role of plasticity rules in reservoir computing [0.0]
Reservoir Computing (RC) は機械学習において魅力的なアプローチである。
我々は,RCの性能向上につながる変化に対して,塑性規則が果たす役割を分析する。
論文 参考訳(メタデータ) (2021-01-14T19:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。