論文の概要: Expert Q-learning: Deep Q-learning With State Values From Expert
Examples
- arxiv url: http://arxiv.org/abs/2106.14642v2
- Date: Tue, 29 Jun 2021 13:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 11:27:33.427025
- Title: Expert Q-learning: Deep Q-learning With State Values From Expert
Examples
- Title(参考訳): エキスパートq-learning: エキスパート例からのステート値を用いた深いq-learning
- Authors: Li Meng, Anis Yazidi, Morten Goodwin, Paal Engelstad
- Abstract要約: エキスパートQラーニングは、Dueling Qラーニングにインスパイアされている。
オフラインの専門家は、状態の値を-1, 0, 1からのみ予測し、これが悪い状態か中立状態か良い状態かを示す。
例のないエキスパートQ-ラーニングも、固定プレイヤーに対してトレーニングとテストを行う際に、ベースラインアルゴリズムよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 9.69357541844442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel algorithm named Expert Q-learning. Expert Q-learning was
inspired by Dueling Q-learning and aimed at incorporating the ideas from
semi-supervised learning into reinforcement learning through splitting Q-values
into state values and action advantages. Different from Generative Adversarial
Imitation Learning and Deep Q-Learning from Demonstrations, the offline expert
we have used only predicts the value of a state from {-1, 0, 1}, indicating
whether this is a bad, neutral or good state. An expert network was designed in
addition to the Q-network, which updates each time following the regular
offline minibatch update whenever the expert example buffer is not empty. The
Q-network plays the role of the advantage function only during the update. Our
algorithm also keeps asynchronous copies of the Q-network and expert network,
predicting the target values using the same manner as of Double Q-learning.
We compared on the game of Othello our algorithm with the state-of-the-art
Q-learning algorithm, which was a combination of Double Q-learning and Dueling
Q-learning. The results showed that Expert Q-learning was indeed useful and
more resistant to the overestimation bias of Q-learning. The baseline
Q-learning algorithm exhibited unstable and suboptimal behavior, especially
when playing against a stochastic player, whereas Expert Q-learning
demonstrated more robust performance with higher scores. Expert Q-learning
without using examples has also gained better results than the baseline
algorithm when trained and tested against a fixed player. On the other hand,
Expert Q-learning without examples cannot win against the baseline Q-learning
algorithm in direct game competitions despite the fact that it has also shown
the strength of reducing the overestimation bias.
- Abstract(参考訳): 本稿では,エキスパートQ学習という新しいアルゴリズムを提案する。
Q-ラーニングの専門家は、Q-ラーニングにインスパイアされ、Q-バリューを状態値と行動アドバンテージに分割することで、半教師付き学習のアイデアを強化学習に取り入れることを目的とした。
Generative Adversarial Imitation LearningやDeep Q-Learningとは違い、私たちが使ったオフラインの専門家は、{-1, 0, 1}から状態の価値を予測するだけで、これが悪いか、中立か、良い状態かを示す。
q-networkに加えて専門家ネットワークが設計され、専門家のサンプルバッファが空でないと、定期的にオフラインのミニバッチ更新後に更新される。
Q-networkはアップデート時にのみ、アドバンテージ関数の役割を担う。
また,本アルゴリズムでは,Q-ネットワークとエキスパートネットワークの非同期コピーも保持し,Double Q-learningと同じ方法で目標値を予測する。
我々はOthelloのアルゴリズムを、Double Q-learningとDueling Q-learningを組み合わせた最先端のQ-learningアルゴリズムと比較した。
その結果,専門家のq-learningは有益であり,q-learningの過大評価バイアスに対する抵抗性が高かった。
ベースラインQ学習アルゴリズムは、特に確率的プレイヤーと対戦する場合、不安定で準最適動作を示し、一方エキスパートQ学習はより高いスコアでより堅牢な性能を示した。
例を使用しないエキスパートQ-ラーニングも、固定プレイヤーに対してトレーニングとテストを行う場合、ベースラインアルゴリズムよりも優れた結果を得た。
一方,実例のないエキスパートq-learningは,過剰推定バイアスの低減効果も示しているにもかかわらず,直接ゲームコンペティションにおいて,ベースラインq-learningアルゴリズムに勝てない。
関連論文リスト
- Lifting the Veil: Unlocking the Power of Depth in Q-learning [31.700583180829106]
深層Q-ラーニングは、オペレーションリサーチとマネジメントサイエンスで広く使われている。
本稿では,深部Q-ラーニングにおける深部Q-ラーニングのパワーを理論的に検証する。
論文 参考訳(メタデータ) (2023-10-27T06:15:33Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。