論文の概要: The Primacy Bias in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.07802v1
- Date: Mon, 16 May 2022 16:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 13:29:56.894909
- Title: The Primacy Bias in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるプライマリーバイアス
- Authors: Evgenii Nikishin, Max Schwarzer, Pierluca D'Oro, Pierre-Luc Bacon,
Aaron Courville
- Abstract要約: この研究は、深層強化学習(RL)アルゴリズムの共通の欠陥を特定する。
徐々に成長するデータセットのトレーニングのため、ディープRLエージェントは、以前の経験に過度に適合するリスクを負う。
本稿では, エージェントの一部を定期的にリセットすることで, プライマリーバイアスに対処する, 単純だが一般適用可能な機構を提案する。
- 参考スコア(独自算出の注目度): 10.691354079742016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work identifies a common flaw of deep reinforcement learning (RL)
algorithms: a tendency to rely on early interactions and ignore useful evidence
encountered later. Because of training on progressively growing datasets, deep
RL agents incur a risk of overfitting to earlier experiences, negatively
affecting the rest of the learning process. Inspired by cognitive science, we
refer to this effect as the primacy bias. Through a series of experiments, we
dissect the algorithmic aspects of deep RL that exacerbate this bias. We then
propose a simple yet generally-applicable mechanism that tackles the primacy
bias by periodically resetting a part of the agent. We apply this mechanism to
algorithms in both discrete (Atari 100k) and continuous action (DeepMind
Control Suite) domains, consistently improving their performance.
- Abstract(参考訳): この研究は、深層強化学習(RL)アルゴリズムの共通の欠陥を識別する: 初期の相互作用に頼り、後で遭遇した有用な証拠を無視する傾向である。
徐々に成長するデータセットのトレーニングのため、深いRLエージェントは、初期の経験に過度に適合するリスクを負い、学習プロセスの他の部分に悪影響を及ぼす。
認知科学にインスパイアされたこの効果を、プライマリーバイアス(priminacy bias)と呼ぶ。
一連の実験を通じて、このバイアスを悪化させる深層rlのアルゴリズム的側面を解析する。
次に,エージェントの一部を定期的に再設定することによってプライマリシーバイアスに取り組む,単純かつ一般に適用可能な機構を提案する。
このメカニズムを離散(Atari 100k)と連続動作(DeepMind Control Suite)の両方のアルゴリズムに適用し、その性能を継続的に改善する。
関連論文リスト
- Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Subtle Inverse Crimes: Na\"ively training machine learning algorithms
could lead to overly-optimistic results [5.785136336372809]
この研究は、いくつかのケースにおいて、この共通のプラクティスがバイアスがあり、過度に最適化された結果をもたらす可能性があることを強調することを目的としている。
本稿では,オープンアクセスデータベースに典型的な2つの前処理パイプラインについて述べる。
その結果,CS, DictL, DLアルゴリズムは, 一見不適切なデータに対して, 適応的に訓練した場合に, 系統的に偏りが生じることがわかった。
論文 参考訳(メタデータ) (2021-09-16T22:00:15Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。