論文の概要: Munchausen Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.14430v3
- Date: Wed, 4 Nov 2020 16:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 01:44:19.495296
- Title: Munchausen Reinforcement Learning
- Title(参考訳): ムンチャウセン強化学習
- Authors: Nino Vieillard, Olivier Pietquin, Matthieu Geist
- Abstract要約: ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
- 参考スコア(独自算出の注目度): 50.396037940989146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Bootstrapping is a core mechanism in Reinforcement Learning (RL). Most
algorithms, based on temporal differences, replace the true value of a
transiting state by their current estimate of this value. Yet, another estimate
could be leveraged to bootstrap RL: the current policy. Our core contribution
stands in a very simple idea: adding the scaled log-policy to the immediate
reward. We show that slightly modifying Deep Q-Network (DQN) in that way
provides an agent that is competitive with distributional methods on Atari
games, without making use of distributional RL, n-step returns or prioritized
replay. To demonstrate the versatility of this idea, we also use it together
with an Implicit Quantile Network (IQN). The resulting agent outperforms
Rainbow on Atari, installing a new State of the Art with very little
modifications to the original algorithm. To add to this empirical study, we
provide strong theoretical insights on what happens under the hood -- implicit
Kullback-Leibler regularization and increase of the action-gap.
- Abstract(参考訳): ブートストラップは強化学習(rl)のコアメカニズムである。
ほとんどのアルゴリズムは時間差に基づいて、この値の現在の推定値によって遷移状態の真の値を置き換える。
しかし、別の見積もりは、現在のポリシーであるRLのブートストラップに活用できる。
私たちの中心となる貢献は、非常にシンプルなアイデアにあります。
この方法でのディープq-network(dqn)の微調整は、分散rlやnステップリターン、優先度付きリプレイを使わずに、atariゲーム上の分散メソッドと競合するエージェントを提供する。
このアイデアの汎用性を実証するために、Implicit Quantile Network (IQN) と併用する。
その結果、エージェントはAtariでRainbowを上回り、元のアルゴリズムをほとんど変更せずに新しいState of the Artをインストールした。
この経験的な研究に加え、ボンネットの下で何が起こるかという理論的な洞察が強まり、暗黙のクルバック・リーブラー正則化とアクションギャップの増加をもたらす。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - IGN : Implicit Generative Networks [5.394800220750409]
我々は分布強化学習の最近の進歩を構築し、IQNに基づくモデルの最先端の分布変種を与える。
ALEにおける57のAtari 2600ゲームにおいて,ベースラインデータセットの性能向上を実証した。
また,このアルゴリズムを用いて,アタリゲームにおけるリスクに敏感なポリシーの訓練性能を,ポリシの最適化と評価で示す。
論文 参考訳(メタデータ) (2022-06-13T00:02:23Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Improve Agents without Retraining: Parallel Tree Search with Off-Policy
Correction [63.595545216327245]
木探索(TS)における2つの大きな課題に取り組む。
我々はまず、TSと事前学習された値関数による行動選択が、元の事前学習されたエージェントと比較して性能を低下させるという、反直感的な現象を発見し、分析する。
Batch-BFS(Batch-BFS)は,木の各深さのすべてのノードを同時に前進させるGPUワイドファースト検索である。
論文 参考訳(メタデータ) (2021-07-04T19:32:24Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - The Value-Improvement Path: Towards Better Representations for
Reinforcement Learning [46.70945548475075]
我々は、RLエージェントが直面する値予測問題は、独立して対処すべきではなく、単一の、全体論的、予測問題として扱うべきだと論じる。
RLアルゴリズムは、少なくとも概ね最適なポリシーに向けて改善される一連のポリシーを生成する。
我々は、過去の価値改善パスにまたがる表現が、将来の政策改善に正確な価値評価をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-03T12:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。