論文の概要: Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep
Ensemble Agents
- arxiv url: http://arxiv.org/abs/2310.20287v1
- Date: Tue, 31 Oct 2023 08:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:59:24.597246
- Title: Sample-Efficient and Safe Deep Reinforcement Learning via Reset Deep
Ensemble Agents
- Title(参考訳): リセット型ディープアンサンブルエージェントによるサンプル効率と安全な深層強化学習
- Authors: Woojun Kim, Yongjae Shin, Jongeui Park, Youngchul Sung
- Abstract要約: resetメソッドは、リプレイバッファを保持しながら、ディープRLエージェントの一部または全部の定期的なリセットを実行する。
本稿では,バニラリセット手法の限界に対処するために,深層アンサンブル学習を利用したリセットに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.96977778655143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) has achieved remarkable success in solving
complex tasks through its integration with deep neural networks (DNNs) as
function approximators. However, the reliance on DNNs has introduced a new
challenge called primacy bias, whereby these function approximators tend to
prioritize early experiences, leading to overfitting. To mitigate this primacy
bias, a reset method has been proposed, which performs periodic resets of a
portion or the entirety of a deep RL agent while preserving the replay buffer.
However, the use of the reset method can result in performance collapses after
executing the reset, which can be detrimental from the perspective of safe RL
and regret minimization. In this paper, we propose a new reset-based method
that leverages deep ensemble learning to address the limitations of the vanilla
reset method and enhance sample efficiency. The proposed method is evaluated
through various experiments including those in the domain of safe RL. Numerical
results show its effectiveness in high sample efficiency and safety
considerations.
- Abstract(参考訳): 深部ニューラルネットワーク(DNN)を関数近似器として統合することで、複雑なタスクの解決において、深部強化学習(RL)は顕著に成功している。
しかし、DNNへの依存は、プライマリーバイアスと呼ばれる新しい課題を導入し、これらの関数近似器は初期の経験を優先し、過度に適合する傾向がある。
このプライマリーバイアスを軽減するために、リプレイバッファを保存しながら深部RLエージェントの一部または全部の定期的なリセットを行うリセット法が提案されている。
しかし、リセットメソッドを使用することで、リセットの実行後にパフォーマンスが低下し、安全なrlと後悔の最小化の観点から有害になる可能性がある。
本稿では,深層アンサンブル学習を活用し,バニラリセット法の限界に対処し,サンプル効率を向上させる新しいリセットベース手法を提案する。
提案手法は安全なRL領域を含む様々な実験により評価される。
実験結果から,高い試料効率と安全性について考察した。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Diverse Priors for Deep Reinforcement Learning [2.8554857235549753]
強化学習(Reinforcement Learning, RL)では、エージェントは与えられた環境における累積報酬を最大化する。
本稿では、RLの初期値関数に最大値の多様性を組み込むことができる、微妙に設計された先行NNを用いた革新的なアプローチを提案する。
提案手法は,古典的制御問題の解法や一般探索タスクにおいて,従来のランダムな手法と比較して,優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T12:33:59Z) - Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk
Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。
これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。
性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2023-07-31T14:26:41Z) - Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization [8.867416300893577]
深層強化学習(RL)における探索は依然として重要な課題である
本稿では,最適化された場合,効率よく探索できる政策が成立する,新しい,微分可能な楽観的目標を提案する。
その結果、他の効率的な探査技術よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2023-02-18T14:13:25Z) - A Neural-Network-Based Convex Regularizer for Inverse Problems [14.571246114579468]
画像再構成問題を解決するためのディープラーニング手法は、再構築品質を大幅に向上させた。
これらの新しい手法は信頼性と説明性に欠けることが多く、これらの欠点に対処する関心が高まっている。
本研究では,凸リッジ関数の和である正則化器を再検討することにより,この問題に対処する。
このような正規化器の勾配は、活性化関数が増加し学習可能な単一の隠蔽層を持つニューラルネットワークによってパラメータ化される。
論文 参考訳(メタデータ) (2022-11-22T18:19:10Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。