論文の概要: Q-Learning with Differential Entropy of Q-Tables
- arxiv url: http://arxiv.org/abs/2006.14795v1
- Date: Fri, 26 Jun 2020 04:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:54:11.661905
- Title: Q-Learning with Differential Entropy of Q-Tables
- Title(参考訳): Q-Tableの微分エントロピーを用いたQ-Learning
- Authors: Tung D. Nguyen, Kathryn E. Kasmarik, Hussein A. Abbass
- Abstract要約: 我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
- 参考スコア(独自算出の注目度): 4.221871357181261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-known that information loss can occur in the classic and simple
Q-learning algorithm. Entropy-based policy search methods were introduced to
replace Q-learning and to design algorithms that are more robust against
information loss. We conjecture that the reduction in performance during
prolonged training sessions of Q-learning is caused by a loss of information,
which is non-transparent when only examining the cumulative reward without
changing the Q-learning algorithm itself. We introduce Differential Entropy of
Q-tables (DE-QT) as an external information loss detector to the Q-learning
algorithm. The behaviour of DE-QT over training episodes is analyzed to find an
appropriate stopping criterion during training. The results reveal that DE-QT
can detect the most appropriate stopping point, where a balance between a high
success rate and a high efficiency is met for classic Q-Learning algorithm.
- Abstract(参考訳): 古典的かつ単純なq学習アルゴリズムでは情報損失が発生することが知られている。
エントロピーに基づくポリシー探索手法を導入し,Q学習を代替し,情報損失に対してより堅牢なアルゴリズムを設計した。
q-learningの長期トレーニングセッションにおけるパフォーマンスの低下は,q-learningアルゴリズム自体を変更することなく累積報酬のみを検査する場合に不透明となる情報の損失に起因すると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
トレーニングエピソードにおけるDEC-QTの挙動を分析し,トレーニング中に適切な停止基準を求める。
その結果、従来のQ-Learningアルゴリズムでは、高い成功率と高い効率のバランスが整う最も適切な停止点をDECが検出できることが判明した。
関連論文リスト
- Finite-Time Error Analysis of Soft Q-Learning: Switching System Approach [4.36117236405564]
ソフトQラーニングは、エントロピー正規化マルコフ決定問題を解くために設計されたQラーニングのバリエーションである。
本稿では,ソフトQ-ラーニングアルゴリズムの有限時間制御理論解析を新規かつ統一的に提供することを目的とする。
論文 参考訳(メタデータ) (2024-03-11T01:36:37Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - Quantum Imitation Learning [74.15588381240795]
本稿では、量子優位性を利用してILを高速化する量子模倣学習(QIL)を提案する。
量子行動クローニング(Q-BC)と量子生成逆模倣学習(Q-GAIL)という2つのQILアルゴリズムを開発した。
実験結果から,Q-BCとQ-GAILの両者が,従来のものと同等の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-04-04T12:47:35Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Characterizing the loss landscape of variational quantum circuits [77.34726150561087]
本稿では,VQCの損失関数のヘシアンを計算する方法を紹介する。
この情報がどのように解釈され、従来のニューラルネットワークと比較されるかを示す。
論文 参考訳(メタデータ) (2020-08-06T17:48:12Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。