論文の概要: Regret Minimization in Heavy-Tailed Bandits
- arxiv url: http://arxiv.org/abs/2102.03734v1
- Date: Sun, 7 Feb 2021 07:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:03:56.292710
- Title: Regret Minimization in Heavy-Tailed Bandits
- Title(参考訳): 重り付きバンドのレグレット最小化
- Authors: Shubhada Agrawal, Sandeep Juneja, Wouter M. Koolen
- Abstract要約: マルチアームバンディット設定における古典的後悔最小化問題を再考する。
本稿では,1次項における下界を正確に一致させる最適アルゴリズムを提案する。
我々の指数は、よく知られたトリミングまたはトリミングされた経験的平均推定値よりも速く集中していることを示す。
- 参考スコア(独自算出の注目度): 12.272975892517039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the classic regret-minimization problem in the stochastic
multi-armed bandit setting when the arm-distributions are allowed to be
heavy-tailed. Regret minimization has been well studied in simpler settings of
either bounded support reward distributions or distributions that belong to a
single parameter exponential family. We work under the much weaker assumption
that the moments of order $(1+\epsilon)$ are uniformly bounded by a known
constant B, for some given $\epsilon > 0$. We propose an optimal algorithm that
matches the lower bound exactly in the first-order term. We also give a
finite-time bound on its regret. We show that our index concentrates faster
than the well known truncated or trimmed empirical mean estimators for the mean
of heavy-tailed distributions. Computing our index can be computationally
demanding. To address this, we develop a batch-based algorithm that is optimal
up to a multiplicative constant depending on the batch size. We hence provide a
controlled trade-off between statistical optimality and computational cost.
- Abstract(参考訳): 腕の分布に重み付けが許される確率的マルチアームバンディット設定における古典的後悔最小化問題を再考する。
レグレト最小化は、単一のパラメータ指数族に属する有界支持報酬分布または分布の単純な設定でよく研究されている。
順序 $(1+\epsilon)$ のモーメントは、与えられた $\epsilon > 0$ に対して既知の定数 B によって一様に有界であるというより弱い仮定の下で働く。
1次項において下限に正確に一致する最適アルゴリズムを提案する。
我々はまた、その後悔に有限時間縛りを与える。
重み付き分布の平均値に対して,我々の指数はよく知られた切り裂かれたあるいはトリミングされた経験的平均推定値よりも早く集中することを示した。
インデックスの計算は計算的に要求される。
そこで本研究では,バッチサイズに依存する乗算定数に最適化されたバッチベースのアルゴリズムを提案する。
したがって,統計的最適性と計算コストのトレードオフを制御できる。
関連論文リスト
- Tangential Randomization in Linear Bandits (TRAiL): Guaranteed Inference and Regret Bounds [1.03590082373586]
本稿では,線形帯域探索アルゴリズムTRAiLの提案と解析を行う。
TraiLは、設計(回帰器)行列の最小固有値によって測定された推論品質の$Omega(sqrtT)$成長を保証する。
我々は,期待された後悔に対して,任意のアルゴリズムに対して$Omega(sqrtT)$ minimax小境界を特徴付ける。
論文 参考訳(メタデータ) (2024-11-19T01:08:13Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - $(\epsilon, u)$-Adaptive Regret Minimization in Heavy-Tailed Bandits [29.966828248335972]
我々は,学習者に対して,$epsilon$と$u$が不明な場合に,後悔の最小化問題を調査する。
AdaR-UCBは、適応しない重みを帯びたケースとほぼ一致した後悔の保証を享受する最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-04T17:11:15Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Optimal Algorithms for Stochastic Complementary Composite Minimization [55.26935605535377]
統計学と機械学習における正規化技術に触発され,補完的な複合化の最小化について検討した。
予測と高い確率で、新しい過剰なリスク境界を提供する。
我々のアルゴリズムはほぼ最適であり、このクラスの問題に対して、新しいより低い複雑性境界によって証明する。
論文 参考訳(メタデータ) (2022-11-03T12:40:24Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - The Fragility of Optimized Bandit Algorithms [4.390757904176221]
帯域幅アルゴリズムの最適設計に関する文献の多くは、期待される後悔の脆弱さに基づいている。
最適化された UCB バンディットの設計は,問題をわずかに誤定義した場合に脆弱であることを示す。
提案手法は, 誤り特定に対する強靭性を確保するために, UCBアルゴリズムを改良可能であることを示す。
論文 参考訳(メタデータ) (2021-09-28T10:11:06Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Constrained regret minimization for multi-criterion multi-armed bandits [5.349852254138086]
リスク制約を条件として,所与の時間的地平線上での後悔の最小化の問題について検討する。
本稿では,対数的後悔を保証するリスク制約付き低信頼境界アルゴリズムを提案する。
我々は,リスク制約付き後悔最小化アルゴリズムの性能に低い限界を証明した。
論文 参考訳(メタデータ) (2020-06-17T04:23:18Z) - Regret and Belief Complexity Trade-off in Gaussian Process Bandits via
Information Thresholding [42.669970064867556]
GPバンディットアルゴリズムの残差境界と後部分布の複雑さのトレードオフを特徴付ける方法を示す。
大域的最適化に応用したGPバンディットアルゴリズムの精度と複雑性のトレードオフを観察する。
論文 参考訳(メタデータ) (2020-03-23T21:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。