論文の概要: Finite-Time Analysis of Whittle Index based Q-Learning for Restless
Multi-Armed Bandits with Neural Network Function Approximation
- arxiv url: http://arxiv.org/abs/2310.02147v1
- Date: Tue, 3 Oct 2023 15:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:26:49.114140
- Title: Finite-Time Analysis of Whittle Index based Q-Learning for Restless
Multi-Armed Bandits with Neural Network Function Approximation
- Title(参考訳): ニューラルネットワーク関数近似を用いたレスレスマルチアーマバンドのWhittle Indexに基づくQラーニングの有限時間解析
- Authors: Guojun Xiong, Jian Li
- Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いたRMABのためのWhittleインデックスに基づくQラーニングアルゴリズムであるNeural-Q-Whittleを提案する。
深層Q-ラーニングの実証的な成功にもかかわらず、Neural-Q-Whittleの非漸近収束速度は未だ不明である。
- 参考スコア(独自算出の注目度): 13.30475927566957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whittle index policy is a heuristic to the intractable restless multi-armed
bandits (RMAB) problem. Although it is provably asymptotically optimal, finding
Whittle indices remains difficult. In this paper, we present Neural-Q-Whittle,
a Whittle index based Q-learning algorithm for RMAB with neural network
function approximation, which is an example of nonlinear two-timescale
stochastic approximation with Q-function values updated on a faster timescale
and Whittle indices on a slower timescale. Despite the empirical success of
deep Q-learning, the non-asymptotic convergence rate of Neural-Q-Whittle, which
couples neural networks with two-timescale Q-learning largely remains unclear.
This paper provides a finite-time analysis of Neural-Q-Whittle, where data are
generated from a Markov chain, and Q-function is approximated by a ReLU neural
network. Our analysis leverages a Lyapunov drift approach to capture the
evolution of two coupled parameters, and the nonlinearity in value function
approximation further requires us to characterize the approximation error.
Combing these provide Neural-Q-Whittle with $\mathcal{O}(1/k^{2/3})$
convergence rate, where $k$ is the number of iterations.
- Abstract(参考訳): whittle index policyは、難解なrestless multi-armed bandits (rmab)問題に対するヒューリスティックである。
漸近的に最適であるが、ウィトル指標を見つけることは困難である。
本稿では,ニューラルネットワーク関数近似を用いたrmabのためのウィットルインデックスに基づくq-learningアルゴリズムであるneural-q-whittleを提案する。
深層Q-ラーニングの実証的な成功にもかかわらず、ニューラルネットワークと2時間スケールQ-ラーニングを結合するNeural-Q-Whittleの非漸近収束速度はほとんど不明である。
本稿では、マルコフ連鎖からデータを生成し、Q関数をReLUニューラルネットワークで近似するニューラルネットワークの有限時間解析を行う。
解析では, 2つの結合パラメータの進化を捉えるためにリアプノフドリフト法を用いており, 値関数近似の非線形性はさらに近似誤差を特徴づける必要がある。
これらはNeural-Q-Whittleと$\mathcal{O}(1/k^{2/3})$収束率を与え、$k$は反復数である。
関連論文リスト
- Non-asymptotic convergence analysis of the stochastic gradient
Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with
applications to training of ReLU neural networks [8.058385158111207]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。
本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文 参考訳(メタデータ) (2024-09-25T17:21:09Z) - Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Tabular and Deep Learning for the Whittle Index [0.2749898166276853]
本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。
我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。
QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。
数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
論文 参考訳(メタデータ) (2024-06-04T07:41:15Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Analyzing Convergence in Quantum Neural Networks: Deviations from Neural
Tangent Kernels [20.53302002578558]
量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)コンピュータで効率的に実装可能なパラメータ化マッピングである。
既存の実証的および理論的研究にもかかわらず、QNNトレーニングの収束は完全には理解されていない。
論文 参考訳(メタデータ) (2023-03-26T22:58:06Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Estimation of the Mean Function of Functional Data via Deep Neural
Networks [6.230751621285321]
関数データに対して非パラメトリック回帰を行うディープニューラルネットワーク手法を提案する。
本手法は,アルツハイマー病患者における陽電子放出トモグラフィ画像の解析に用いる。
論文 参考訳(メタデータ) (2020-12-08T17:18:16Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。