論文の概要: Local Anti-Concentration Class: Logarithmic Regret for Greedy Linear Contextual Bandit
- arxiv url: http://arxiv.org/abs/2411.12878v1
- Date: Tue, 19 Nov 2024 21:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:16.951777
- Title: Local Anti-Concentration Class: Logarithmic Regret for Greedy Linear Contextual Bandit
- Title(参考訳): 局所的反集中型クラス:Greedy Linear Contextual Banditのための対数レグレット
- Authors: Seok-Jin Kim, Min-hwan Oh,
- Abstract要約: 本研究では,線形文脈帯域問題に対する探索自由グリードアルゴリズムの性能保証について検討する。
提案手法では,テキストローカルアンチ集中(LAC)条件という新しい条件を導入し,グリーディバンディットアルゴリズムを有効活用する。
- 参考スコア(独自算出の注目度): 8.087699764574788
- License:
- Abstract: We study the performance guarantees of exploration-free greedy algorithms for the linear contextual bandit problem. We introduce a novel condition, named the \textit{Local Anti-Concentration} (LAC) condition, which enables a greedy bandit algorithm to achieve provable efficiency. We show that the LAC condition is satisfied by a broad class of distributions, including Gaussian, exponential, uniform, Cauchy, and Student's~$t$ distributions, along with other exponential family distributions and their truncated variants. This significantly expands the class of distributions under which greedy algorithms can perform efficiently. Under our proposed LAC condition, we prove that the cumulative expected regret of the greedy algorithm for the linear contextual bandit is bounded by $O(\operatorname{poly} \log T)$. Our results establish the widest range of distributions known to date that allow a sublinear regret bound for greedy algorithms, further achieving a sharp poly-logarithmic regret.
- Abstract(参考訳): 本研究では,線形文脈帯域問題に対する探索自由グリードアルゴリズムの性能保証について検討する。
そこで我々は, グリーディ・バンディットアルゴリズムが有効性を実現するための新しい条件である 'textit{Local Anti-Concentration} (LAC) を導入する。
我々は、LAC条件がガウス分布、指数関数、一様分布、コーシー分布、および学生の〜$t$分布を含む幅広い分布と、他の指数関数的なファミリー分布およびその切り離された不変量によって満たされることを示す。
これにより、グリーディアルゴリズムが効率的に動作可能な分布のクラスが大幅に拡張される。
提案したLAC条件の下では、線形文脈帯域に対するグリーディアルゴリズムの累積的後悔が$O(\operatorname{poly} \log T)$で有界であることを証明する。
以上の結果から,現在知られている最も広い範囲の分布が確立され,よりシャープな多対数的後悔が達成される。
関連論文リスト
- Lasso Bandit with Compatibility Condition on Optimal Arm [10.216425987201333]
文脈特徴のスパース部分のみが期待される報酬関数に影響を及ぼすような疎線型バンドイット問題を考える。
本稿では,強制サンプリング手法を適用したアルゴリズムを提案し,提案アルゴリズムが$O(textpolylog dT)$ regretを達成したことを証明した。
論文 参考訳(メタデータ) (2024-06-02T18:11:47Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Differentially-Private Hierarchical Clustering with Provable
Approximation Guarantees [79.59010418610625]
階層クラスタリングのための微分プライベート近似アルゴリズムについて検討する。
例えば、$epsilon$-DPアルゴリズムは入力データセットに対して$O(|V|2/epsilon)$-additiveエラーを示さなければならない。
本稿では,ブロックを正確に復元する1+o(1)$近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-31T19:14:30Z) - Squeeze All: Novel Estimator and Self-Normalized Bound for Linear
Contextual Bandits [18.971564419292893]
我々は、$O(sqrtdTlog T)$ regret boundで、$d$は文脈の次元、$T$は時間地平線であるような線形文脈的帯域幅アルゴリズムを提案する。
提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。
論文 参考訳(メタデータ) (2022-06-11T02:43:17Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Bandit algorithms: Letting go of logarithmic regret for statistical
robustness [0.0]
我々は,多武器の盗賊設定における後悔について研究し,アルゴリズムによる後悔と統計的堅牢性の間に基本的なトレードオフを確立する。
対数的後悔を伴う帯域学習アルゴリズムは常に矛盾しており、一貫した学習アルゴリズムは常に超対数的後悔に苦しむことを示す。
論文 参考訳(メタデータ) (2020-06-22T07:18:47Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。