論文の概要: VA-learning as a more efficient alternative to Q-learning
- arxiv url: http://arxiv.org/abs/2305.18161v2
- Date: Sat, 31 Aug 2024 12:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:54:55.290114
- Title: VA-learning as a more efficient alternative to Q-learning
- Title(参考訳): Qラーニングの代替手段としてのVAラーニング
- Authors: Yunhao Tang, Rémi Munos, Mark Rowland, Michal Valko,
- Abstract要約: 本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 49.526579981437315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which directly learns advantage function and value function using bootstrapping, without explicit reference to Q-functions. VA-learning learns off-policy and enjoys similar theoretical guarantees as Q-learning. Thanks to the direct learning of advantage function and value function, VA-learning improves the sample efficiency over Q-learning both in tabular implementations and deep RL agents on Atari-57 games. We also identify a close connection between VA-learning and the dueling architecture, which partially explains why a simple architectural change to DQN agents tends to improve performance.
- Abstract(参考訳): 強化学習においては、利点関数は政策改善に不可欠であるが、学習されたQ-関数からしばしば抽出される。
自然の疑問は、なぜ直接に有利な関数を学ばないのか?
そこで本研究では,Q-関数を明示的に参照することなく,ブートストラップを用いて関数と値関数を直接学習するVA-ラーニングを提案する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
アドバンテージ関数と値関数の直接学習により、VA学習は、Atari-57ゲーム上での表型実装とディープRLエージェントの両方において、Q学習のサンプル効率を改善する。
また、VA学習とデュエルアーキテクチャの密接な関係を同定し、DQNエージェントに対する単純なアーキテクチャ変更がパフォーマンスを向上させる傾向にある理由を部分的に説明する。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Learning Value Functions from Undirected State-only Experience [17.76847333440422]
離散決定過程 (MDP) におけるマルコフ・クラーニング(英語版)は、作用空間の任意の洗練の下で同じ値関数を学習することを示す。
この理論的結果は、状態のみの経験から効果的な値関数を学習できるオフラインRL法であるLatent Action Q-learning(LAQ)の設計を動機付けている。
LAQは、基底真理行動を用いて学習した値関数と高い相関を持つ値関数を復元できることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:24:36Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples [8.938418994111716]
エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、半教師付き学習を強化学習に組み込むことを目的としている。
オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の値を評価する。
以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。
論文 参考訳(メタデータ) (2021-06-28T12:41:45Z) - Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity [2.088376060651494]
提案手法では,異なる状態と行動の類似性を考察する。
トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。
論文 参考訳(メタデータ) (2021-06-02T13:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。