論文の概要: Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples
- arxiv url: http://arxiv.org/abs/2106.14642v5
- Date: Tue, 25 Jun 2024 07:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 23:29:11.816595
- Title: Expert Q-learning: Deep Reinforcement Learning with Coarse State Values from Offline Expert Examples
- Title(参考訳): エキスパートQ-ラーニング - オフライン専門家の例から得られた粗い状態値による深層強化学習
- Authors: Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad,
- Abstract要約: エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、半教師付き学習を強化学習に組み込むことを目的としている。
オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の値を評価する。
以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。
- 参考スコア(独自算出の注目度): 8.938418994111716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we propose a novel algorithm for deep reinforcement learning named Expert Q-learning. Expert Q-learning is inspired by Dueling Q-learning and aims at incorporating semi-supervised learning into reinforcement learning through splitting Q-values into state values and action advantages. We require that an offline expert assesses the value of a state in a coarse manner using three discrete values. An expert network is designed in addition to the Q-network, which updates each time following the regular offline minibatch update whenever the expert example buffer is not empty. Using the board game Othello, we compare our algorithm with the baseline Q-learning algorithm, which is a combination of Double Q-learning and Dueling Q-learning. Our results show that Expert Q-learning is indeed useful and more resistant to the overestimation bias. The baseline Q-learning algorithm exhibits unstable and suboptimal behavior in non-deterministic settings, whereas Expert Q-learning demonstrates more robust performance with higher scores, illustrating that our algorithm is indeed suitable to integrate state values from expert examples into Q-learning.
- Abstract(参考訳): 本稿では,エキスパートQ-ラーニングという,深層強化学習のための新しいアルゴリズムを提案する。
エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、Q値を状態値と行動アドバンテージに分割することで、半教師付き学習を強化学習に組み込むことを目的としている。
オフラインの専門家は、3つの離散値を使用して、粗い方法で状態の価値を評価する必要がある。
エキスパートネットワークはQ-networkに加えて設計されており、エキスパートのサンプルバッファが空でない場合、通常のオフラインのミニバッチ更新の後に毎回更新される。
ボードゲームOthelloを用いて,Double QラーニングとDueling Qラーニングを組み合わせたベースラインQラーニングアルゴリズムと比較した。
以上の結果から,エキスパートQ-ラーニングは本当に有用であり,過大評価バイアスに耐性があることが示唆された。
ベースラインQ学習アルゴリズムは、非決定論的条件下で不安定かつ準最適動作を示す一方、エキスパートQ学習はより高いスコアでより堅牢な性能を示す。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。