論文の概要: Finite-Time Analysis of Whittle Index based Q-Learning for Restless
Multi-Armed Bandits with Neural Network Function Approximation
- arxiv url: http://arxiv.org/abs/2310.02147v1
- Date: Tue, 3 Oct 2023 15:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:26:49.114140
- Title: Finite-Time Analysis of Whittle Index based Q-Learning for Restless
Multi-Armed Bandits with Neural Network Function Approximation
- Title(参考訳): ニューラルネットワーク関数近似を用いたレスレスマルチアーマバンドのWhittle Indexに基づくQラーニングの有限時間解析
- Authors: Guojun Xiong, Jian Li
- Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いたRMABのためのWhittleインデックスに基づくQラーニングアルゴリズムであるNeural-Q-Whittleを提案する。
深層Q-ラーニングの実証的な成功にもかかわらず、Neural-Q-Whittleの非漸近収束速度は未だ不明である。
- 参考スコア(独自算出の注目度): 13.30475927566957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whittle index policy is a heuristic to the intractable restless multi-armed
bandits (RMAB) problem. Although it is provably asymptotically optimal, finding
Whittle indices remains difficult. In this paper, we present Neural-Q-Whittle,
a Whittle index based Q-learning algorithm for RMAB with neural network
function approximation, which is an example of nonlinear two-timescale
stochastic approximation with Q-function values updated on a faster timescale
and Whittle indices on a slower timescale. Despite the empirical success of
deep Q-learning, the non-asymptotic convergence rate of Neural-Q-Whittle, which
couples neural networks with two-timescale Q-learning largely remains unclear.
This paper provides a finite-time analysis of Neural-Q-Whittle, where data are
generated from a Markov chain, and Q-function is approximated by a ReLU neural
network. Our analysis leverages a Lyapunov drift approach to capture the
evolution of two coupled parameters, and the nonlinearity in value function
approximation further requires us to characterize the approximation error.
Combing these provide Neural-Q-Whittle with $\mathcal{O}(1/k^{2/3})$
convergence rate, where $k$ is the number of iterations.
- Abstract(参考訳): whittle index policyは、難解なrestless multi-armed bandits (rmab)問題に対するヒューリスティックである。
漸近的に最適であるが、ウィトル指標を見つけることは困難である。
本稿では,ニューラルネットワーク関数近似を用いたrmabのためのウィットルインデックスに基づくq-learningアルゴリズムであるneural-q-whittleを提案する。
深層Q-ラーニングの実証的な成功にもかかわらず、ニューラルネットワークと2時間スケールQ-ラーニングを結合するNeural-Q-Whittleの非漸近収束速度はほとんど不明である。
本稿では、マルコフ連鎖からデータを生成し、Q関数をReLUニューラルネットワークで近似するニューラルネットワークの有限時間解析を行う。
解析では, 2つの結合パラメータの進化を捉えるためにリアプノフドリフト法を用いており, 値関数近似の非線形性はさらに近似誤差を特徴づける必要がある。
これらはNeural-Q-Whittleと$\mathcal{O}(1/k^{2/3})$収束率を与え、$k$は反復数である。
関連論文リスト
- A Mean-Field Analysis of Neural Gradient Descent-Ascent: Applications to Functional Conditional Moment Equations [90.87444114491116]
無限次元関数クラス上で定義されるミニマックス最適化問題について検討する。
また、勾配降下度アルゴリズムの収束とニューラルネットワークの表現学習についても検討する。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A
Nonasymptotic Analysis [19.95757894913852]
我々は,動的システムの教師付き学習環境において,勾配降下を訓練した繰り返しニューラルネットワークを解析した。
我々は、$n$サンプルでトレーニングされた適切なd型リカレントニューラルネットワークが、$n$で対数的にのみスケールするネットワークサイズ$m$で最適性を達成できることを示します。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Analyzing Convergence in Quantum Neural Networks: Deviations from Neural
Tangent Kernels [20.53302002578558]
量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)コンピュータで効率的に実装可能なパラメータ化マッピングである。
既存の実証的および理論的研究にもかかわらず、QNNトレーニングの収束は完全には理解されていない。
論文 参考訳(メタデータ) (2023-03-26T22:58:06Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - q-RBFNN:A Quantum Calculus-based RBF Neural Network [31.14412266444568]
放射状基底関数ニューラルネットワーク(RBFNN)に対する勾配降下に基づく学習手法を提案する。
提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。
提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。
論文 参考訳(メタデータ) (2021-06-02T08:27:12Z) - Estimation of the Mean Function of Functional Data via Deep Neural
Networks [6.230751621285321]
関数データに対して非パラメトリック回帰を行うディープニューラルネットワーク手法を提案する。
本手法は,アルツハイマー病患者における陽電子放出トモグラフィ画像の解析に用いる。
論文 参考訳(メタデータ) (2020-12-08T17:18:16Z) - Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。
同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-09-29T18:48:21Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。