論文の概要: Expert Q-learning: Deep Q-learning With State Values From Expert
Examples
- arxiv url: http://arxiv.org/abs/2106.14642v1
- Date: Mon, 28 Jun 2021 12:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 13:59:48.294386
- Title: Expert Q-learning: Deep Q-learning With State Values From Expert
Examples
- Title(参考訳): エキスパートq-learning: エキスパート例からのステート値を用いた深いq-learning
- Authors: Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad
- Abstract要約: エキスパートQラーニングは、Dueling Q-learningにインスパイアされ、半教師付き学習のアイデアを強化学習に取り入れることを目的とした。
オフラインの専門家は、-1, 0, 1から状態の値だけを予測するだけで、これが悪いか、中立か、良い状態かを示す。
また,本アルゴリズムでは,Q-ネットワークとエキスパートネットワークの非同期コピーも保持し,Double Q-learningと同じ方法で目標値を予測する。
- 参考スコア(独自算出の注目度): 9.69357541844442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel algorithm named Expert Q-learning. Expert Q-learning was
inspired by Dueling Q-learning and aimed at incorporating the ideas from
semi-supervised learning into reinforcement learning through splitting Q-values
into state values and action advantages. Different from Generative Adversarial
Imitation Learning and Deep Q-Learning from Demonstrations, the offline expert
we have used only predicts the value of a state from {-1, 0, 1}, indicating
whether this is a bad, neutral or good state. An expert network is designed in
addition to the Q-network and updated each time following the regular offline
minibatch update whenever the expert example buffer is not empty. Our algorithm
also keeps asynchronous copies of the Q-network and expert network, predicting
the target values using the same manner as of Double Q-learning. We compared on
the game of Othello our algorithm with the state-of-the-art Q-learning
algorithm, which was a combination of Double Q-learning and Dueling Q-learning.
The results showed that Expert Q-learning was indeed useful and more
resistant to the overestimation bias of Q-learning. The baseline Q-learning
algorithm exhibited unstable and suboptimal behavior, especially when playing
against a stochastic player, whereas Expert Q-learning demonstrated more robust
performance with higher scores. Expert Q-learning without using examples has
also gained better results than the baseline algorithm when trained and tested
against a fixed player. On the other hand, Expert Q-learning without examples
cannot win against the baseline Q-learning algorithm in direct game
competitions despite the fact that it has also shown the strength of reducing
the overestimation bias.
- Abstract(参考訳): 本稿では,エキスパートQ学習という新しいアルゴリズムを提案する。
Q-ラーニングの専門家は、Q-ラーニングにインスパイアされ、Q-バリューを状態値と行動アドバンテージに分割することで、半教師付き学習のアイデアを強化学習に取り入れることを目的とした。
Generative Adversarial Imitation LearningやDeep Q-Learningとは違い、私たちが使ったオフラインの専門家は、{-1, 0, 1}から状態の価値を予測するだけで、これが悪いか、中立か、良い状態かを示す。
エキスパートネットワークは、Qネットワークに加えて設計され、エキスパートのサンプルバッファが空でない場合、通常のオフラインのミニバッチ更新の後に毎回更新される。
また,本アルゴリズムでは,Q-ネットワークとエキスパートネットワークの非同期コピーも保持し,Double Q-learningと同じ方法で目標値を予測する。
我々はOthelloのアルゴリズムを、Double Q-learningとDueling Q-learningを組み合わせた最先端のQ-learningアルゴリズムと比較した。
その結果,専門家のq-learningは有益であり,q-learningの過大評価バイアスに対する抵抗性が高かった。
ベースラインQ学習アルゴリズムは、特に確率的プレイヤーと対戦する場合、不安定で準最適動作を示し、一方エキスパートQ学習はより高いスコアでより堅牢な性能を示した。
例を使用しないエキスパートQ-ラーニングも、固定プレイヤーに対してトレーニングとテストを行う場合、ベースラインアルゴリズムよりも優れた結果を得た。
一方,実例のないエキスパートq-learningは,過剰推定バイアスの低減効果も示しているにもかかわらず,直接ゲームコンペティションにおいて,ベースラインq-learningアルゴリズムに勝てない。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。