Fugu-MT 論文翻訳(概要): Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation

論文の概要: Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation

arxiv url: http://arxiv.org/abs/2310.02147v1
Date: Tue, 3 Oct 2023 15:34:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 13:26:49.114140
Title: Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation
Title（参考訳）: ニューラルネットワーク関数近似を用いたレスレスマルチアーマバンドのWhittle Indexに基づくQラーニングの有限時間解析
Authors: Guojun Xiong, Jian Li
Abstract要約: 本稿では,ニューラルネットワーク関数近似を用いたRMABのためのWhittleインデックスに基づくQラーニングアルゴリズムであるNeural-Q-Whittleを提案する。深層Q-ラーニングの実証的な成功にもかかわらず、Neural-Q-Whittleの非漸近収束速度は未だ不明である。
参考スコア（独自算出の注目度）: 13.30475927566957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Whittle index policy is a heuristic to the intractable restless multi-armed bandits (RMAB) problem. Although it is provably asymptotically optimal, finding Whittle indices remains difficult. In this paper, we present Neural-Q-Whittle, a Whittle index based Q-learning algorithm for RMAB with neural network function approximation, which is an example of nonlinear two-timescale stochastic approximation with Q-function values updated on a faster timescale and Whittle indices on a slower timescale. Despite the empirical success of deep Q-learning, the non-asymptotic convergence rate of Neural-Q-Whittle, which couples neural networks with two-timescale Q-learning largely remains unclear. This paper provides a finite-time analysis of Neural-Q-Whittle, where data are generated from a Markov chain, and Q-function is approximated by a ReLU neural network. Our analysis leverages a Lyapunov drift approach to capture the evolution of two coupled parameters, and the nonlinearity in value function approximation further requires us to characterize the approximation error. Combing these provide Neural-Q-Whittle with $\mathcal{O}(1/k^{2/3})$ convergence rate, where $k$ is the number of iterations.
Abstract（参考訳）: whittle index policyは、難解なrestless multi-armed bandits (rmab)問題に対するヒューリスティックである。漸近的に最適であるが、ウィトル指標を見つけることは困難である。本稿では,ニューラルネットワーク関数近似を用いたrmabのためのウィットルインデックスに基づくq-learningアルゴリズムであるneural-q-whittleを提案する。深層Q-ラーニングの実証的な成功にもかかわらず、ニューラルネットワークと2時間スケールQ-ラーニングを結合するNeural-Q-Whittleの非漸近収束速度はほとんど不明である。本稿では、マルコフ連鎖からデータを生成し、Q関数をReLUニューラルネットワークで近似するニューラルネットワークの有限時間解析を行う。解析では, 2つの結合パラメータの進化を捉えるためにリアプノフドリフト法を用いており, 値関数近似の非線形性はさらに近似誤差を特徴づける必要がある。これらはNeural-Q-Whittleと$\mathcal{O}(1/k^{2/3})$収束率を与え、$k$は反復数である。

関連論文リスト

Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks [8.058385158111207]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文参考訳（メタデータ） (2024-09-25T17:21:09Z)
Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文参考訳（メタデータ） (2024-07-10T13:58:57Z)
Tabular and Deep Learning for the Whittle Index [0.2749898166276853]
本稿では,QWIとQWINNの2つの強化学習アルゴリズムについて紹介する。我々の主要な理論的結果において、QWI は真のウィトル指標に収束することを示す。 QWINN の場合、ベルマン誤差の局所最小値はすべて局所安定平衡であることを示す。数値計算により、QWIとQWINNは標準Q-ラーニングアルゴリズムよりも高速に収束することが示された。
論文参考訳（メタデータ） (2024-06-04T07:41:15Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Analyzing Convergence in Quantum Neural Networks: Deviations from Neural Tangent Kernels [20.53302002578558]
量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)コンピュータで効率的に実装可能なパラメータ化マッピングである。既存の実証的および理論的研究にもかかわらず、QNNトレーニングの収束は完全には理解されていない。
論文参考訳（メタデータ） (2023-03-26T22:58:06Z)
Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。神経性交流は,大域的最適政策をサブ線形速度で求める。
論文参考訳（メタデータ） (2021-12-27T06:09:50Z)
Estimation of the Mean Function of Functional Data via Deep Neural Networks [6.230751621285321]
関数データに対して非パラメトリック回帰を行うディープニューラルネットワーク手法を提案する。本手法は,アルツハイマー病患者における陽電子放出トモグラフィ画像の解析に用いる。
論文参考訳（メタデータ） (2020-12-08T17:18:16Z)
Finite-Time Analysis for Double Q-learning [50.50058000948908]
二重Q-ラーニングのための非漸近的有限時間解析を初めて提供する。同期と非同期の二重Q-ラーニングの両方が,グローバル最適化の$epsilon$-accurate近辺に収束することが保証されていることを示す。
論文参考訳（メタデータ） (2020-09-29T18:48:21Z)
Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2020-07-30T12:27:03Z)
Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文参考訳（メタデータ） (2020-06-22T14:31:37Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。