論文の概要: DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction
- arxiv url: http://arxiv.org/abs/2003.07305v1
- Date: Mon, 16 Mar 2020 16:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:49:00.597313
- Title: DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction
- Title(参考訳): DisCor: 分散補正による強化学習における補正フィードバック
- Authors: Aviral Kumar, Abhishek Gupta, Sergey Levine
- Abstract要約: ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
- 参考スコア(独自算出の注目度): 96.90215318875859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning can learn effective policies for a wide range of
tasks, but is notoriously difficult to use due to instability and sensitivity
to hyperparameters. The reasons for this remain unclear. When using standard
supervised methods (e.g., for bandits), on-policy data collection provides
"hard negatives" that correct the model in precisely those states and actions
that the policy is likely to visit. We call this phenomenon "corrective
feedback." We show that bootstrapping-based Q-learning algorithms do not
necessarily benefit from this corrective feedback, and training on the
experience collected by the algorithm is not sufficient to correct errors in
the Q-function. In fact, Q-learning and related methods can exhibit
pathological interactions between the distribution of experience collected by
the agent and the policy induced by training on that experience, leading to
potential instability, sub-optimal convergence, and poor results when learning
from noisy, sparse or delayed rewards. We demonstrate the existence of this
problem, both theoretically and empirically. We then show that a specific
correction to the data distribution can mitigate this issue. Based on these
observations, we propose a new algorithm, DisCor, which computes an
approximation to this optimal distribution and uses it to re-weight the
transitions used for training, resulting in substantial improvements in a range
of challenging RL settings, such as multi-task learning and learning from noisy
reward signals. Blog post presenting a summary of this work is available at:
https://bair.berkeley.edu/blog/2020/03/16/discor/.
- Abstract(参考訳): 深層強化学習は、幅広いタスクに対して効果的なポリシーを学ぶことができるが、不安定性と過度パラメータに対する感受性のため、使用が難しいことが知られている。
その理由は定かではない。
標準的な教師付きメソッド(例えばバンドイット)を使用する場合、オン・ポリティカルなデータ収集は、ポリシーが訪れるであろう状態やアクションを正確に修正する"ハード・ネガティブ"を提供する。
この現象を「正しいフィードバック」と呼ぶ。
ブートストラップ型q-ラーニングアルゴリズムは,この補正フィードバックの恩恵を受ける必要はなく,q-関数の誤りを正すにはアルゴリズムが収集した経験のトレーニングが不十分であることを示す。
実際、Q-ラーニングと関連する手法は、エージェントが収集した経験の分布と、その経験に基づくトレーニングによって引き起こされるポリシーの間の病理学的相互作用を示すことができ、ノイズ、スパース、遅延報酬から学ぶときの潜在的な不安定性、準最適収束、および貧弱な結果をもたらす。
我々は、理論的にも経験的にも、この問題の存在を実証する。
次に,データ分布の特定の補正によってこの問題を緩和できることを示す。
これらの観察に基づいて,この最適分布の近似を計算し,それを用いてトレーニングに使用する遷移の重み付けを行う新しいアルゴリズム discor を提案する。
この作業の概要を示すブログ記事は、https://bair.berkeley.edu/blog/2020/03/16/discor/で公開されている。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Learning Representations on the Unit Sphere: Investigating Angular
Gaussian and von Mises-Fisher Distributions for Online Continual Learning [7.145581090959242]
本稿では,新たな損失関数を備えたメモリベース表現学習手法を提案する。
提案手法は,タスク境界がぼやけた標準的な評価シナリオと現実的なシナリオの両方において,現状の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-06T02:38:01Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。