論文の概要: Tabular and Deep Learning for the Whittle Index
- arxiv url: http://arxiv.org/abs/2406.02057v1
- Date: Tue, 4 Jun 2024 07:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:30:56.892606
- Title: Tabular and Deep Learning for the Whittle Index
- Title(参考訳): ウィトル指数のタブラリと深層学習
- Authors: Francisco Robledo Relaño, Vivek Borkar, Urtzi Ayesta, Konstantin Avrachenkov,
- Abstract要約: 本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。
我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。
数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
- 参考スコア(独自算出の注目度): 0.2749898166276853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Whittle index policy is a heuristic that has shown remarkably good performance (with guaranteed asymptotic optimality) when applied to the class of problems known as Restless Multi-Armed Bandit Problems (RMABPs). In this paper we present QWI and QWINN, two reinforcement learning algorithms, respectively tabular and deep, to learn the Whittle index for the total discounted criterion. The key feature is the use of two time-scales, a faster one to update the state-action Q -values, and a relatively slower one to update the Whittle indices. In our main theoretical result we show that QWI, which is a tabular implementation, converges to the real Whittle indices. We then present QWINN, an adaptation of QWI algorithm using neural networks to compute the Q -values on the faster time-scale, which is able to extrapolate information from one state to another and scales naturally to large state-space environments. For QWINN, we show that all local minima of the Bellman error are locally stable equilibria, which is the first result of its kind for DQN-based schemes. Numerical computations show that QWI and QWINN converge faster than the standard Q -learning algorithm, neural-network based approximate Q-learning and other state of the art algorithms.
- Abstract(参考訳): Whittle Index Policyは、RMABP(Restless Multi-Armed Bandit Problems)と呼ばれる問題に適用されると、驚くほど優れたパフォーマンス(漸近的最適性を保証する)を示すヒューリスティックである。
本稿では,2つの強化学習アルゴリズムであるQWIとQWINNを紹介し,合計割引基準のWhittle指数を学習する。
重要な特徴は、2つの時間スケールの使用、状態アクションのQ値更新の高速化、Whittleインデックス更新の比較的遅い機能である。
主な理論的結果から、表の実装である QWI が真のウィトル指標に収束することを示す。
次に、ニューラルネットワークを用いたQWIアルゴリズムを適応して、より高速な時間スケールでのQ値を計算するQWINNを提案し、ある状態から別の状態への情報を抽出し、大きな状態空間環境に自然にスケールすることができる。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所的に安定な平衡値であることが示され、これは DQN に基づくスキームの種別の最初の結果である。
数値計算により、QWIとQWINNは、標準的なQ-ラーニングアルゴリズム、ニューラルネットワークに基づく近似Q-ラーニング、その他の最先端アルゴリズムよりも高速に収束することが示された。
関連論文リスト
- Time Elastic Neural Networks [2.1756081703276]
時間弾性ニューラルネットワーク(teNN)という,非定型ニューラルネットワークアーキテクチャの導入と詳細化について述べる。
古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆがみ能力を明確に組み込んでいることだ。
トレーニング過程において,TENNは各細胞に必要となるニューロン数を減少させることに成功した。
論文 参考訳(メタデータ) (2024-05-27T09:01:30Z) - Finite-Time Analysis of Whittle Index based Q-Learning for Restless
Multi-Armed Bandits with Neural Network Function Approximation [13.30475927566957]
本稿では,ニューラルネットワーク関数近似を用いたRMABのためのWhittleインデックスに基づくQラーニングアルゴリズムであるNeural-Q-Whittleを提案する。
深層Q-ラーニングの実証的な成功にもかかわらず、Neural-Q-Whittleの非漸近収束速度は未だ不明である。
論文 参考訳(メタデータ) (2023-10-03T15:34:21Z) - Problem-Dependent Power of Quantum Neural Networks on Multi-Class
Classification [83.20479832949069]
量子ニューラルネットワーク(QNN)は物理世界を理解する上で重要なツールとなっているが、その利点と限界は完全には理解されていない。
本稿では,多クラス分類タスクにおけるQCの問題依存力について検討する。
我々の研究はQNNの課題依存力に光を当て、その潜在的なメリットを評価するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2022-12-29T10:46:40Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - On the Global Convergence of Fitted Q-Iteration with Two-layer Neural
Network Parametrization [33.12181620473604]
本稿では,2層型ReLUニューラルネットワークを用いたQ-Iterationについて検討し,アルゴリズムの複雑さの保証を求める。
このアプローチは,オーダー最適化である $tildemathcalO (1/epsilon2)$ のサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2022-11-14T19:00:24Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Self-correcting Q-Learning [14.178899938667161]
自己修正アルゴリズム」という形でバイアスに対処する新しい手法を導入する。
この戦略をQラーニングに適用すると、自己修正Qラーニングが発生する。
理論的には,このアルゴリズムはQ-ラーニングと同等の収束保証を享受できるが,精度は高い。
論文 参考訳(メタデータ) (2020-12-02T11:36:24Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。