論文の概要: GenCos' Behaviors Modeling Based on Q Learning Improved by Dichotomy
- arxiv url: http://arxiv.org/abs/2008.01536v1
- Date: Tue, 4 Aug 2020 13:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:15:30.171423
- Title: GenCos' Behaviors Modeling Based on Q Learning Improved by Dichotomy
- Title(参考訳): 分節化によるq学習に基づくgencosの行動モデリング
- Authors: Qiangang Jia, Zhaoyu Hu, Yiyan Li, Zheng Yan, Sijie Chen
- Abstract要約: 本稿では,新しいQ学習アルゴリズムを提案する。
状態空間とアクション空間とを段階的に二分することにより、Qテーブルの更新プロセスを変更する。
繰り返しCournotゲームにおけるシミュレーションの結果,提案アルゴリズムの有効性が示された。
- 参考スコア(独自算出の注目度): 3.14969586104215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q learning is widely used to simulate the behaviors of generation companies
(GenCos) in an electricity market. However, existing Q learning method usually
requires numerous iterations to converge, which is time-consuming and
inefficient in practice. To enhance the calculation efficiency, a novel Q
learning algorithm improved by dichotomy is proposed in this paper. This method
modifies the update process of the Q table by dichotomizing the state space and
the action space step by step. Simulation results in a repeated Cournot game
show the effectiveness of the proposed algorithm.
- Abstract(参考訳): qラーニングは電力市場におけるジェネレーション企業(gencos)の振る舞いをシミュレートするために広く使われている。
しかし、既存のQ学習法は、通常、多くのイテレーションを収束させる必要があり、実際は時間がかかり非効率である。
計算効率を向上させるため,二分法で改良した新しいq学習アルゴリズムを提案する。
この方法は、状態空間と行動空間ステップを段階的に二分することにより、Qテーブルの更新プロセスを変更する。
反復クールノーゲームにおけるシミュレーション結果は,提案アルゴリズムの有効性を示す。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity [2.088376060651494]
提案手法では,異なる状態と行動の類似性を考察する。
トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。
論文 参考訳(メタデータ) (2021-06-02T13:05:24Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。