論文の概要: Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes
- arxiv url: http://arxiv.org/abs/2409.04605v1
- Date: Fri, 6 Sep 2024 20:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:42:30.186173
- Title: Whittle Index Learning Algorithms for Restless Bandits with Constant Stepsizes
- Title(参考訳): 定常ステップサイズをもつレストバンドのためのウィトル指数学習アルゴリズム
- Authors: Vishesh Mittal, Rahul Meshram, Surya Prakash,
- Abstract要約: レスレスマルチアームバンディットのためのWhittleインデックス学習アルゴリズムについて検討する。
まず,探索ポリシを持つQ-ラーニングアルゴリズム,すなわちepsilon-greedy, softmax, epsilon-softmaxを定常的なステップサイズで提案する。
単腕レスト・バンディットのための索引学習へのQ-ラーニングの研究を拡張した。
- 参考スコア(独自算出の注目度): 3.3918638314432945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the Whittle index learning algorithm for restless multi-armed bandits. We consider index learning algorithm with Q-learning. We first present Q-learning algorithm with exploration policies -- epsilon-greedy, softmax, epsilon-softmax with constant stepsizes. We extend the study of Q-learning to index learning for single-armed restless bandit. The algorithm of index learning is two-timescale variant of stochastic approximation, on slower timescale we update index learning scheme and on faster timescale we update Q-learning assuming fixed index value. In Q-learning updates are in asynchronous manner. We study constant stepsizes two timescale stochastic approximation algorithm. We provide analysis of two-timescale stochastic approximation for index learning with constant stepsizes. Further, we present study on index learning with deep Q-network (DQN) learning and linear function approximation with state-aggregation method. We describe the performance of our algorithms using numerical examples. We have shown that index learning with Q learning, DQN and function approximations learns the Whittle index.
- Abstract(参考訳): レスレスマルチアームバンディットのためのWhittleインデックス学習アルゴリズムについて検討する。
索引学習アルゴリズムとQ-ラーニングについて考察する。
まず,探索ポリシを持つQ-ラーニングアルゴリズム,すなわちepsilon-greedy, softmax, epsilon-softmaxを定常的なステップサイズで提案する。
単腕レスト・バンディットのための索引学習へのQ-ラーニングの研究を拡張した。
インデックス学習のアルゴリズムは確率近似の2時間スケール変種であり、より遅い時間スケールではインデックス学習スキームを更新し、より速い時間スケールでは固定インデックス値を仮定したQ-ラーニングを更新する。
Q-learningのアップデートは非同期である。
本研究では,2つの時間スケール確率近似アルゴリズムについて検討する。
定常的なステップサイズを持つ索引学習のための2段階確率近似の解析を行う。
さらに,DQN(Deep Q-network)学習を用いた索引学習と状態集約法による線形関数近似について検討する。
本稿では,数値例を用いてアルゴリズムの性能について述べる。
我々は,Q学習,DQN,関数近似を用いた索引学習がWhittleインデックスを学習することを示した。
関連論文リスト
- Faster Q-Learning Algorithms for Restless Bandits [0.0]
レスレスマルチアームバンド(RMAB)のためのWhittleインデックス学習アルゴリズムについて検討する。
まず、Q-ラーニングアルゴリズムとその変種について、高速Q-ラーニング(RMAB)、一般化高速Q-ラーニング(G)、位相Q-ラーニング(PhaseQL)について述べる。
論文 参考訳(メタデータ) (2024-09-06T20:55:07Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Tabular and Deep Learning for the Whittle Index [0.2749898166276853]
本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。
我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。
数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
論文 参考訳(メタデータ) (2024-06-04T07:41:15Z) - q-Learning in Continuous Time [1.4213973379473654]
エントロピー規則化探索拡散過程の定式化による強化学習(RL)におけるQ-ラーニングの連続的対応について検討した。
我々は、時間離散化とは無関係なq-函数に関するq-ラーニング理論を開発する。
我々は、根底にある問題を解決するために、異なるアクター批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2022-07-02T02:20:41Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Statistical Adaptive Stochastic Gradient Methods [34.859895010071234]
本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。
SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。
本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
論文 参考訳(メタデータ) (2020-02-25T00:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。