論文の概要: Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards
- arxiv url: http://arxiv.org/abs/2010.12866v2
- Date: Wed, 27 Oct 2021 07:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:17:31.893004
- Title: Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed
Rewards
- Title(参考訳): 重み付き報酬を伴う確率的多腕バンディットの最適アルゴリズム
- Authors: Kyungjae Lee and Hongjun Yang and Sungbin Lim and Songhwai Oh
- Abstract要約: 我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。
本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。
提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
- 参考スコア(独自算出の注目度): 24.983866845065926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider stochastic multi-armed bandits (MABs) with
heavy-tailed rewards, whose $p$-th moment is bounded by a constant $\nu_{p}$
for $1<p\leq2$. First, we propose a novel robust estimator which does not
require $\nu_{p}$ as prior information, while other existing robust estimators
demand prior knowledge about $\nu_{p}$. We show that an error probability of
the proposed estimator decays exponentially fast. Using this estimator, we
propose a perturbation-based exploration strategy and develop a generalized
regret analysis scheme that provides upper and lower regret bounds by revealing
the relationship between the regret and the cumulative density function of the
perturbation. From the proposed analysis scheme, we obtain gap-dependent and
gap-independent upper and lower regret bounds of various perturbations. We also
find the optimal hyperparameters for each perturbation, which can achieve the
minimax optimal regret bound with respect to total rounds. In simulation, the
proposed estimator shows favorable performance compared to existing robust
estimators for various $p$ values and, for MAB problems, the proposed
perturbation strategy outperforms existing exploration methods.
- Abstract(参考訳): 本稿では、重み付き報酬を持つ確率的マルチアームバンディット(MAB)について検討し、その1<p\leq2$に対して、p$-thのモーメントは定数$\nu_{p}$で有界である。
まず、従来の情報として$\nu_{p}$を必要としない新しいロバスト推定器を提案し、一方既存のロバスト推定器は$\nu_{p}$について事前の知識を要求する。
提案した推定器の誤差確率は指数関数的に速く減衰することを示す。
この推定器を用いて摂動に基づく探索戦略を提案し、摂動の累積密度関数と後悔の関係を明らかにすることにより、後悔の上限を上下する一般的な後悔分析手法を考案する。
提案する解析手法から,様々な摂動のgap依存性およびgap非依存な上層および下層の後悔領域を求める。
また,各摂動に対する最適超パラメータを見いだし,全ラウンドに対して束縛されたミニマックス最適後悔を実現できる。
シミュレーションにおいて,提案手法は,既存のロバスト推定器と比較して様々な$p$値に対して良好な性能を示し,mab問題では,摂動戦略が既存の探索手法を上回っている。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Tractable and Near-Optimal Adversarial Algorithms for Robust Estimation
in Contaminated Gaussian Models [1.609950046042424]
ハマーの汚染されたガウスモデルの下での位置と分散行列の同時推定の問題を考える。
まず,非パラメトリック判別器を用いた生成逆数法に対応する最小$f$-divergence推定法について検討した。
ネスト最適化により実装可能な,単純なスプライン判別器を用いたトラクタブル逆数アルゴリズムを開発した。
提案手法は,$f$-divergenceと使用したペナルティに応じて,最小値の最適値またはほぼ最適値を達成する。
論文 参考訳(メタデータ) (2021-12-24T02:46:51Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Regret-Optimal Filtering [57.51328978669528]
後悔最適化レンズによる線形状態空間モデルにおけるフィルタの問題を検討する。
我々は, 透視推定器の誤差エネルギー推定における後悔の概念に基づいて, フィルタ設計のための新しい基準を定式化する。
3つのリッキー方程式と1つのリャプノフ方程式を解くことで、後悔と最適推定が容易に実現できることを示す。
論文 参考訳(メタデータ) (2021-01-25T19:06:52Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。