論文の概要: CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.08380v1
- Date: Tue, 14 May 2024 07:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:48:16.168004
- Title: CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning
- Title(参考訳): CIER: 深層強化学習における因果推論を用いた新しい経験リプレイアプローチ
- Authors: Jingwen Wang, Dehui Du, Yida Li, Yiyang Li, Yikang Chen,
- Abstract要約: 時系列を意味のあるサブシーケンスに分割する新しい手法を提案し,これらのサブシーケンスに基づいて時系列を表現する。
このサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果的要因を特定するために因果推論に使用される。
いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。
- 参考スコア(独自算出の注目度): 11.13226491866178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the training process of Deep Reinforcement Learning (DRL), agents require repetitive interactions with the environment. With an increase in training volume and model complexity, it is still a challenging problem to enhance data utilization and explainability of DRL training. This paper addresses these challenges by focusing on the temporal correlations within the time dimension of time series. We propose a novel approach to segment multivariate time series into meaningful subsequences and represent the time series based on these subsequences. Furthermore, the subsequences are employed for causal inference to identify fundamental causal factors that significantly impact training outcomes. We design a module to provide feedback on the causality during DRL training. Several experiments demonstrate the feasibility of our approach in common environments, confirming its ability to enhance the effectiveness of DRL training and impart a certain level of explainability to the training process. Additionally, we extended our approach with priority experience replay algorithm, and experimental results demonstrate the continued effectiveness of our approach.
- Abstract(参考訳): 深層強化学習(DRL)の訓練プロセスでは、エージェントは環境との反復的な相互作用を必要とする。
訓練量の増大とモデルの複雑さにより、DRLトレーニングのデータ利用と説明可能性を高めることは依然として難しい問題である。
本稿では,時系列の時間次元における時間的相関に着目し,これらの課題に対処する。
本稿では,多変量時系列を意味のあるサブシーケンスに分割し,これらのサブシーケンスに基づいて時系列を表現する新しい手法を提案する。
さらに、これらのサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果要因を特定するために因果推論に使用される。
DRLトレーニング中の因果関係に対するフィードバックを提供するモジュールを設計する。
いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。
さらに,提案手法を優先体験再生アルゴリズムにより拡張し,提案手法の有効性を実証した。
関連論文リスト
- Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Replay across Experiments: A Natural Extension of Off-Policy RL [18.545939667810565]
複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
論文 参考訳(メタデータ) (2023-11-27T15:57:11Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。