論文の概要: Towards Practical Credit Assignment for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04499v1
- Date: Tue, 8 Jun 2021 16:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:14:47.346022
- Title: Towards Practical Credit Assignment for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための実践的クレジットアサインメントに向けて
- Authors: Vyacheslav Alipov, Riley Simmons-Edler, Nikita Putintsev, Pavel
Kalinin, Dmitry Vetrov
- Abstract要約: 信用割当は強化学習における根本的な問題である。
近年,HCA(Hindsight Credit Assignment)と呼ばれる手法が提案されている。
我々は,クレジット制約付きアドバンテージ・アクター・クリティカル(C2A2C)という新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.6749750044497732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Credit assignment is a fundamental problem in reinforcement learning, the
problem of measuring an action's influence on future rewards. Improvements in
credit assignment methods have the potential to boost the performance of RL
algorithms on many tasks, but thus far have not seen widespread adoption.
Recently, a family of methods called Hindsight Credit Assignment (HCA) was
proposed, which explicitly assign credit to actions in hindsight based on the
probability of the action having led to an observed outcome. This approach is
appealing as a means to more efficient data usage, but remains a largely
theoretical idea applicable to a limited set of tabular RL tasks, and it is
unclear how to extend HCA to Deep RL environments. In this work, we explore the
use of HCA-style credit in a deep RL context. We first describe the limitations
of existing HCA algorithms in deep RL, then propose several
theoretically-justified modifications to overcome them. Based on this
exploration, we present a new algorithm, Credit-Constrained Advantage
Actor-Critic (C2A2C), which ignores policy updates for actions which don't
affect future outcomes based on credit in hindsight, while updating the policy
as normal for those that do. We find that C2A2C outperforms Advantage
Actor-Critic (A2C) on the Arcade Learning Environment (ALE) benchmark, showing
broad improvements over A2C and motivating further work on credit-constrained
update rules for deep RL methods.
- Abstract(参考訳): 信用割当は強化学習における基本的な問題であり、将来の報酬に対する行動の影響を測定する問題である。
信用割当手法の改善は、多くのタスクにおいてRLアルゴリズムの性能を高める可能性があるが、今のところ広く採用されていない。
近年,HCA (Hindsight Credit Assignment, Hindsight Credit Assignment) と呼ばれる手法が提案されている。
このアプローチは、より効率的なデータ使用方法として魅力的であるが、表形式のRLタスクの限られたセットに適用可能な理論的な考え方であり、どのようにHCAをディープなRL環境に拡張するかは不明である。
本研究では,深部RL文脈におけるHCA型クレジットの利用について検討する。
我々はまず,既存のHCAアルゴリズムの限界を深いRLで記述し,それを克服するために理論的に修正したいくつかの修正を提案する。
そこで本研究では,信用度に基づく将来の成果に影響を与えない行動に対する方針更新を無視し,通常どおりの方針更新を行う,信用制約付きアドバンテージ・アクタ-クリティック(c2a2c)という新しいアルゴリズムを提案する。
我々は、c2a2cがarcade learning environment(ale)ベンチマークのactor-critic(a2c)よりも優れており、a2cに対する広範な改善を示し、深いrlメソッドに対するクレジット制約付き更新ルールのさらなる取り組みを動機付ける。
関連論文リスト
- Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - A Survey of Temporal Credit Assignment in Deep Reinforcement Learning [47.17998784925718]
クレディ・アサインメント問題(Capital Assignment Problem, CAP)とは、強化学習(Reinforcement Learning, RL)エージェントが長期的な結果と行動を関連付けるための長年にわたる課題を指す。
我々は、最先端のアルゴリズムの公平な比較を可能にする信用の統一形式性を提案する。
我々は、遅延効果、転置、行動への影響の欠如に起因する課題について論じ、既存の手法がそれらにどう対処しようとしているのかを分析した。
論文 参考訳(メタデータ) (2023-12-02T08:49:51Z) - Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for
Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。
Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文 参考訳(メタデータ) (2023-02-02T18:05:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。