論文の概要: How Does Variance Shape the Regret in Contextual Bandits?
- arxiv url: http://arxiv.org/abs/2410.12713v1
- Date: Wed, 16 Oct 2024 16:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:11.823179
- Title: How Does Variance Shape the Regret in Contextual Bandits?
- Title(参考訳): コンテクストバンドのレグレットはどのように形成されるか?
- Authors: Zeyu Jia, Jian Qian, Alexander Rakhlin, Chen-Yu Wei,
- Abstract要約: 一般関数近似を用いた文脈的包帯について考察する。
共振器次元 $d_textelu$-$play が分散依存境界において重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 59.8472760881411
- License:
- Abstract: We consider realizable contextual bandits with general function approximation, investigating how small reward variance can lead to better-than-minimax regret bounds. Unlike in minimax bounds, we show that the eluder dimension $d_\text{elu}$$-$a complexity measure of the function class$-$plays a crucial role in variance-dependent bounds. We consider two types of adversary: (1) Weak adversary: The adversary sets the reward variance before observing the learner's action. In this setting, we prove that a regret of $\Omega(\sqrt{\min\{A,d_\text{elu}\}\Lambda}+d_\text{elu})$ is unavoidable when $d_{\text{elu}}\leq\sqrt{AT}$, where $A$ is the number of actions, $T$ is the total number of rounds, and $\Lambda$ is the total variance over $T$ rounds. For the $A\leq d_\text{elu}$ regime, we derive a nearly matching upper bound $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$ for the special case where the variance is revealed at the beginning of each round. (2) Strong adversary: The adversary sets the reward variance after observing the learner's action. We show that a regret of $\Omega(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ is unavoidable when $\sqrt{d_\text{elu}\Lambda}+d_\text{elu}\leq\sqrt{AT}$. In this setting, we provide an upper bound of order $\tilde{O}(d_\text{elu}\sqrt{\Lambda}+d_\text{elu})$. Furthermore, we examine the setting where the function class additionally provides distributional information of the reward, as studied by Wang et al. (2024). We demonstrate that the regret bound $\tilde{O}(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ established in their work is unimprovable when $\sqrt{d_{\text{elu}}\Lambda}+d_\text{elu}\leq\sqrt{AT}$. However, with a slightly different definition of the total variance and with the assumption that the reward follows a Gaussian distribution, one can achieve a regret of $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$.
- Abstract(参考訳): 一般関数近似による実現可能な文脈的包帯について考察し、報酬の分散がいかにして最小限の後悔境界に繋がるかを考察する。
ミニマックス境界とは違って、関数クラス$-$play のユーラダー次元 $d_\text{elu}$-$a の複雑性測度が分散依存境界において決定的な役割を果たすことを示す。
1)弱敵:学習者の行動を観察する前に報酬の分散を設定する。
この設定では、$\Omega(\sqrt{\min\{A,d_\text{elu}\}\Lambda}+d_\text{elu})$ の後悔は、$d_{\text{elu}}\leq\sqrt{AT}$ がアクションの数、$T$ がラウンドの総数、$\Lambda$ がラウンドの合計差であるときに不可避であることを示す。
A\leq d_\text{elu}$ の場合、各ラウンドの開始時に分散が明らかになる特別な場合、ほぼ一致する上界 $\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$ を導出する。
2) 強敵: 学習者の行動を観察して報酬の分散を設定する。
我々は、$\Omega(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$の後悔は、$\sqrt{d_\text{elu}\Lambda}+d_\text{elu}\leq\sqrt{AT}$の場合には避けられないことを示す。
この設定では、位数 $\tilde{O}(d_\text{elu}\sqrt{\Lambda}+d_\text{elu})$ の上限を与える。
さらに,Wang et al (2024) の調査により,関数クラスが報酬の分布情報を付加的に提供する設定についても検討した。
遺書境界の $\tilde{O}(\sqrt{d_\text{elu}\Lambda}+d_\text{elu})$ は $\sqrt{d_{\text{elu}}\Lambda}+d_\text{elu}\leq\sqrt{AT}$ で証明不可能である。
しかし、全分散のわずかに異なる定義と、報酬がガウス分布に従うという仮定により、$\tilde{O}(\sqrt{A\Lambda}+d_\text{elu})$の後悔を達成できる。
関連論文リスト
- Near-optimal Regret Using Policy Optimization in Online MDPs with Aggregate Bandit Feedback [49.84060509296641]
オンライン有限水平マルコフ決定過程を逆向きに変化した損失と総括的帯域幅フィードバック(フルバンド幅)を用いて研究する。
この種のフィードバックの下では、エージェントは、軌跡内の各中間段階における個々の損失よりも、軌跡全体に生じる総損失のみを観察する。
この設定のための最初のポリシー最適化アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2025-02-06T12:03:24Z) - An Information-Theoretic Analysis of Thompson Sampling for Logistic Bandits [36.37704574907495]
本稿では,ロジスティックバンディット問題に対するトンプソンサンプリングアルゴリズムの性能について検討する。
我々は、$O(d/alphaqrtT log(beta T/d))$ of regret incurred after $T$ expected of Smpling steps.
論文 参考訳(メタデータ) (2024-12-03T21:55:41Z) - Low-rank Matrix Bandits with Heavy-tailed Rewards [55.03293214439741]
アンダーライン重み付きアンダーラインリワード(LowHTR)を用いたアンダーラインローランク行列バンディットの問題点について検討する。
観測されたペイオフに対するトランケーションと動的探索を利用して,LOTUSと呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-26T21:54:31Z) - Context-lumpable stochastic bandits [49.024050919419366]
我々は、$S$コンテキストと$K$アクションによる文脈的盗賊問題を考える。
我々は,最大$widetilde O(r (S +K )/epsilon2)$サンプルを用いて,$epsilon$-optimal Policyを出力するアルゴリズムを提案する。
後悔の設定では、T$までの累積後悔を$widetilde O(sqrtr3(S+K)T)$で束縛するアルゴリズムを与える。
論文 参考訳(メタデータ) (2023-06-22T17:20:30Z) - Scale-Free Adversarial Multi-Armed Bandit with Arbitrary Feedback Delays [21.94728545221709]
制限のないフィードバック遅延を伴うMAB(Scale-Free Adversarial Multi Armed Bandit)問題を考える。
textttSFBankerは$mathcal O(sqrtK(D+T)L)cdot rm polylog(T, L)$ total regret, where $T$ is the total number of steps, $D$ is the total feedback delay。
論文 参考訳(メタデータ) (2021-10-26T04:06:51Z) - Bandit Phase Retrieval [45.12888201134656]
この問題におけるminimax累積後悔は$smashtilde Theta(d sqrtn)$であることを証明する。
また、minimax の単純な後悔は $smashtilde Theta(d / sqrtn)$ であり、これは適応アルゴリズムによってのみ達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T08:04:33Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。