Fugu-MT 論文翻訳(概要): A Lyapunov Analysis of Softmax Policy Gradient for Stochastic Bandits

論文の概要: A Lyapunov Analysis of Softmax Policy Gradient for Stochastic Bandits

arxiv url: http://arxiv.org/abs/2603.26547v1
Date: Fri, 27 Mar 2026 15:57:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.581743
Title: A Lyapunov Analysis of Softmax Policy Gradient for Stochastic Bandits
Title（参考訳）: 確率帯域に対するソフトマックスポリシー勾配のリアプノフ解析
Authors: Tor Lattimore,
Abstract要約: 我々は、Lattimore (2026) による連続時間 $k$armed bandits のポリシーの分析を標準離散時間設定に適用する。連続時間のように、学習率$= O(_min2/(_max log(n))$ 後悔は$O(k log(k) log(n) / )$ である。
参考スコア（独自算出の注目度）: 17.118410286860996
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We adapt the analysis of policy gradient for continuous time $k$-armed stochastic bandits by Lattimore (2026) to the standard discrete time setup. As in continuous time, we prove that with learning rate $η= O(Δ_{\min}^2/(Δ_{\max} \log(n)))$ the regret is $O(k \log(k) \log(n) / η)$ where $n$ is the horizon and $Δ_{\min}$ and $Δ_{\max}$ are the minimum and maximum gaps.
Abstract（参考訳）: 我々はLattimore (2026) による連続時間に対するポリシー勾配の解析を標準離散時間設定に適用する。連続時間のように、学習率$η= O(Δ_{\min}^2/(Δ_{\max} \log(n))$ 後悔は$O(k \log(k) \log(n) / η)$ であり、$n$ は地平線であり、$Δ_{\min}$ と $Δ_{\max}$ は最小のギャップである。

関連論文リスト

A Diffusion Analysis of Policy Gradient for Stochastic Bandits [17.118410286860996]
学習率$= O(2/log(n)$で、後悔は$O(k log(k) log(n) / )$である。我々は、$= O(2)$ でない限り、後悔が線型である、対数的に多くのアームしか持たないインスタンスを構築します。
論文参考訳（メタデータ） (2026-03-10T20:36:44Z)
Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文参考訳（メタデータ） (2026-03-02T18:17:33Z)
A second order regret bound for NormalHedge [19.286414421124505]
NormalHedgeの変種が$Obig(sqrtV_T log(V_T/)bigの2階の$-quantileの後悔境界を楽しむことを示す。 V_T$は、アルゴリズムに関して平均された、経験者ごとの即時後悔の累積2番目のモーメントである。
論文参考訳（メタデータ） (2026-02-08T22:57:36Z)
Online Newton Method for Bandit Convex Optimisation [28.66596225688161]
ゼロ階帯域幅の最適化のための計算効率の良いアルゴリズムを提案する。逆条件では、その後悔は少なくとも$d3.5 sqrtn Mathrmpolylog(n, d)$であり、d$が時間的地平線である確率が高いことを証明している。設定において、バウンダリは$M d2 sqrtn Mathrmpolylog(n, d)$に改善され、[d-1/2, d-1 / 4]$は$Mとなる。
論文参考訳（メタデータ） (2024-06-10T17:44:11Z)
Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文参考訳（メタデータ） (2022-10-15T09:22:22Z)
Optimism in Face of a Context: Regret Guarantees for Stochastic Contextual MDP [46.86114958340962]
我々は,最小到達可能性仮定の下での文脈的MDPに対する後悔のアルゴリズムを提案する。我々のアプローチは、一般関数近似を用いた文脈的MDPに適用された最初の楽観的アプローチである。
論文参考訳（メタデータ） (2022-07-22T15:00:15Z)
A Best-of-Both-Worlds Algorithm for Bandits with Delayed Feedback [25.68113242132723]
本稿では,Zimmert と Seldin [2020] のアルゴリズムを,フィードバックの遅れによる逆方向の多重武装バンディットに対して修正したチューニングを行う。我々は,時間的遅れのある設定において,ほぼ最適の相反的後悔の保証を同時に達成する。また,任意の遅延の場合に対するアルゴリズムの拡張も提案する。
論文参考訳（メタデータ） (2022-06-29T20:49:45Z)
Horizon-Free Reinforcement Learning in Polynomial Time: the Power of Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文参考訳（メタデータ） (2022-03-24T08:14:12Z)
Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文参考訳（メタデータ） (2021-03-24T10:11:49Z)
$Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文参考訳（メタデータ） (2020-06-16T13:01:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。