論文の概要: Faster Q-Learning Algorithms for Restless Bandits
- arxiv url: http://arxiv.org/abs/2409.05908v1
- Date: Fri, 6 Sep 2024 20:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:10:02.847515
- Title: Faster Q-Learning Algorithms for Restless Bandits
- Title(参考訳): レストレスバンドのためのQ-Learningアルゴリズムの高速化
- Authors: Parvish Kakarapalli, Devendra Kayande, Rahul Meshram,
- Abstract要約: レスレスマルチアームバンド(RMAB)のためのWhittleインデックス学習アルゴリズムについて検討する。
まず、Q-ラーニングアルゴリズムとその変種について、高速Q-ラーニング(RMAB)、一般化高速Q-ラーニング(G)、位相Q-ラーニング(PhaseQL)について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the Whittle index learning algorithm for restless multi-armed bandits (RMAB). We first present Q-learning algorithm and its variants -- speedy Q-learning (SQL), generalized speedy Q-learning (GSQL) and phase Q-learning (PhaseQL). We also discuss exploration policies -- $\epsilon$-greedy and Upper confidence bound (UCB). We extend the study of Q-learning and its variants with UCB policy. We illustrate using numerical example that Q-learning with UCB exploration policy has faster convergence and PhaseQL with UCB have fastest convergence rate. We next extend the study of Q-learning variants for index learning to RMAB. The algorithm of index learning is two-timescale variant of stochastic approximation, on slower timescale we update index learning scheme and on faster timescale we update Q-learning assuming fixed index value. We study constant stepsizes two timescale stochastic approximation algorithm. We describe the performance of our algorithms using numerical example. It illustrate that index learning with Q learning with UCB has faster convergence that $\epsilon$ greedy. Further, PhaseQL (with UCB and $\epsilon$ greedy) has the best convergence than other Q-learning algorithms.
- Abstract(参考訳): レスレスマルチアームバンド(RMAB)のためのWhittleインデックス学習アルゴリズムについて検討した。
まず、高速Q学習(SQL)、一般化高速Q学習(GSQL)、位相Q学習(PhaseQL)など、Q学習アルゴリズムとその変種について述べる。
調査方針も議論している -- $\epsilon$-greedy と upper confidence bound (UCB)。
我々は、Q-ラーニングとその変種の研究を UCB ポリシーで拡張する。
UCB探索ポリシによるQ-ラーニングがより高速収束し, UCBによるPhaseQLが最速収束率を持つという数値例を用いて説明する。
次に、インデックス学習のためのQ-ラーニング変種の研究をRMABに拡張する。
インデックス学習のアルゴリズムは確率近似の2時間スケール変種であり、より遅い時間スケールではインデックス学習スキームを更新し、より速い時間スケールでは固定インデックス値を仮定したQ-ラーニングを更新する。
本研究では,2つの時間スケール確率近似アルゴリズムについて検討する。
本稿では,数値例を用いてアルゴリズムの性能について述べる。
UCBによるQ学習による索引学習は、$\epsilon$ greedyというより高速な収束を持つことを示している。
さらに、フェーズQL(UCBと$\epsilon$greedy)は、他のQ学習アルゴリズムよりも収束性が高い。
関連論文リスト
- Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes [3.3918638314432945]
レスレスマルチアームバンディットのためのWhittleインデックス学習アルゴリズムについて検討する。
まず,探索ポリシを持つQ-ラーニングアルゴリズム,すなわちepsilon-greedy, softmax, epsilon-softmaxを定常的なステップサイズで提案する。
単腕レスト・バンディットのための索引学習へのQ-ラーニングの研究を拡張した。
論文 参考訳(メタデータ) (2024-09-06T20:24:19Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Tabular and Deep Learning for the Whittle Index [0.2749898166276853]
本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。
我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。
数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
論文 参考訳(メタデータ) (2024-06-04T07:41:15Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Learning Hidden Markov Models Using Conditional Samples [72.20944611510198]
本稿では,隠れマルコフモデル(HMM)の学習における計算複雑性について述べる。
本稿では,HMMの条件分布からサンプルを問合せする対話型アクセスモデルを提案する。
具体的には、正確な条件付き確率に対するクエリアクセスが可能な設定において、HMMを学習するための効率的なアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-02-28T16:53:41Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。