論文の概要: Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity
- arxiv url: http://arxiv.org/abs/2106.01134v1
- Date: Wed, 2 Jun 2021 13:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:29:29.161414
- Title: Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity
- Title(参考訳): 滑らかなQラーニング:類似性を用いたQラーニングの高速化
- Authors: Wei Liao and Xiaohui Wei and Jizhou Lai
- Abstract要約: 提案手法では,異なる状態と行動の類似性を考察する。
トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。
- 参考スコア(独自算出の注目度): 2.088376060651494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An improvement of Q-learning is proposed in this paper. It is different from
classic Q-learning in that the similarity between different states and actions
is considered in the proposed method. During the training, a new updating
mechanism is used, in which the Q value of the similar state-action pairs are
updated synchronously. The proposed method can be used in combination with both
tabular Q-learning function and deep Q-learning. And the results of numerical
examples illustrate that compared to the classic Q-learning, the proposed
method has a significantly better performance.
- Abstract(参考訳): 本稿ではQ-ラーニングの改善について述べる。
提案手法では,異なる状態と行動の類似性を考慮した古典的なQ-ラーニングとは異なる。
トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。
提案手法は,表型q-learning関数と深層q-learningを併用して用いることができる。
また,古典的なQ-ラーニングと比較して,提案手法は性能が著しく向上したことを示す。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Suppressing Overestimation in Q-Learning through Adversarial Behaviors [4.36117236405564]
本稿では,ダミー逆Q-ラーニング(DAQ)と呼ばれる,ダミー逆Q-ラーニングを行う新しいQ-ラーニングアルゴリズムを提案する。
提案したDAQは、最大Qラーニングや最小Qラーニングなどの過大評価バイアスを制御するために、いくつかのQラーニングのバリエーションを統一する。
DAQの有限時間収束は、逆Q-ラーニングを適用することによって統合的な視点から解析される。
論文 参考訳(メタデータ) (2023-10-10T03:46:32Z) - VA-learning as a more efficient alternative to Q-learning [49.526579981437315]
本稿では,ブートストラップを用いたベネフィット関数と値関数を直接学習するVA学習について紹介する。
VAラーニングは政治から学び、Qラーニングと同様の理論的な保証を享受する。
優位関数と値関数の直接学習により、VA学習はQ学習よりもサンプル効率を向上させる。
論文 参考訳(メタデータ) (2023-05-29T15:44:47Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - GenCos' Behaviors Modeling Based on Q Learning Improved by Dichotomy [3.14969586104215]
本稿では,新しいQ学習アルゴリズムを提案する。
状態空間とアクション空間とを段階的に二分することにより、Qテーブルの更新プロセスを変更する。
繰り返しCournotゲームにおけるシミュレーションの結果,提案アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2020-08-04T13:48:09Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。