論文の概要: Smooth Non-Stationary Bandits
- arxiv url: http://arxiv.org/abs/2301.12366v1
- Date: Sun, 29 Jan 2023 06:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 17:36:39.034336
- Title: Smooth Non-Stationary Bandits
- Title(参考訳): 平滑な非定常バンド
- Authors: Su Jia, Qian Xie, Nathan Kallus, Peter I. Frazier
- Abstract要約: 本研究では、腕の平均報酬が正規化時間(正規化時間)で$beta$-H'older関数となる非定常二腕包帯問題について検討する。
円滑な体制と非平滑な体制の分離を最初に示すのは、$beta=2$に対してT3/5$後悔の政策を提示することである。
- 参考スコア(独自算出の注目度): 54.40609666958948
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In many applications of online decision making, the environment is
non-stationary and it is therefore crucial to use bandit algorithms that handle
changes. Most existing approaches are designed to protect against non-smooth
changes, constrained only by total variation or Lipschitzness over time, where
they guarantee $T^{2/3}$ regret. However, in practice environments are often
changing {\it smoothly}, so such algorithms may incur higher-than-necessary
regret in these settings and do not leverage information on the {\it rate of
change}. In this paper, we study a non-stationary two-arm bandit problem where
we assume an arm's mean reward is a $\beta$-H\"older function over (normalized)
time, meaning it is $(\beta-1)$-times Lipschitz-continuously differentiable. We
show the first {\it separation} between the smooth and non-smooth regimes by
presenting a policy with $T^{3/5}$ regret for $\beta=2$. We complement this
result by a $T^{\frac{\beta+1}{2\beta+1}}$ lower bound for any integer
$\beta\ge 1$, which matches our upper bound for $\beta=2$.
- Abstract(参考訳): オンライン意思決定の多くの応用において、環境は非定常的であり、変化を処理するバンディットアルゴリズムを使用することが重要である。
既存のほとんどのアプローチは、全変動やリプシッツ性によって制限された非滑らかな変更から保護するために設計されている。
しかし、実際には環境がスムーズに変化している場合が多いため、このようなアルゴリズムはこれらの設定において必要以上の後悔を招き、変化率に関する情報を活用できない。
本稿では、腕の平均報酬を(正規化)時間で$\beta$-H\"older関数と仮定する非定常二本腕バンディット問題について検討し、これは、(\beta-1)$-times Lipschitz-continuously differentiableである。
滑らかな状態と非滑らかな状態の間の最初の分離を、$T^{3/5}$ regret for $\beta=2$で表すことで示します。
この結果は、$T^{\frac{\beta+1}{2\beta+1}}$ lower bound for any integer $\beta\ge 1$で補います。
関連論文リスト
- LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits [38.41164102066483]
本研究では、独立かつ同一に分散したコンテキストを持つ線形文脈帯域問題について考察する。
提案アルゴリズムは、Tsallisエントロピーを持つFollow-The-Regularized-Leaderに基づいており、$alpha$-textual-Con (LC)-Tsallis-INFと呼ばれている。
論文 参考訳(メタデータ) (2024-03-05T18:59:47Z) - Tight Memory-Regret Lower Bounds for Streaming Bandits [11.537938617281736]
学習者は オンラインの腕と サブリニアの腕の記憶を扱うことで 後悔を最小化することを目的としています
我々は,任意のアルゴリズムに対して,Omega left((TB)alpha K1-alpharight), α = 2B / (2B+1-1)$という,厳密な最悪ケースの残差を低く設定する。
また、一定のアームメモリを用いて、左(TB)アルファK1-αright)$の後悔の上限を達成できるマルチパスアルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-06-13T16:54:13Z) - On the Minimax Regret for Online Learning with Feedback Graphs [5.721380617450645]
強く観察可能な無向フィードバックグラフを用いて,オンライン学習を後悔する上で,上層と下層の境界を改善した。
改良された上界$mathcalObigl(sqrtalpha T(ln K)/(lnalpha)bigr)$ hold for any $alpha$ and the lower bounds for bandits and experts。
論文 参考訳(メタデータ) (2023-05-24T17:40:57Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Smooth Bandit Optimization: Generalization to H\"older Space [37.15553727896912]
我々は、目標が累積後悔である滑らかな報酬関数のバンディット最適化を考える。
私たちの主な結果は、指数 $alpha>1$ を持つ H"older space への報酬関数の一般化です。
私たちは、$alphaleq 1$サブセット内で、既存の下限に適合する後悔率を達成することを示します。
論文 参考訳(メタデータ) (2020-12-11T01:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。