論文の概要: Bias no more: high-probability data-dependent regret bounds for
adversarial bandits and MDPs
- arxiv url: http://arxiv.org/abs/2006.08040v2
- Date: Thu, 29 Oct 2020 22:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 10:09:53.866886
- Title: Bias no more: high-probability data-dependent regret bounds for
adversarial bandits and MDPs
- Title(参考訳): Bias No more: 敵対的盗賊とMDPに対する高確率データ依存的後悔境界
- Authors: Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang
- Abstract要約: 我々は,適応的相手に対する盗聴フィードバックを用いたオンライン学習において,高い確率的後悔境界を得るための新しいアプローチを開発した。
我々のアプローチは、対数的に均質な自己協和障壁と強化されたフリードマンの不平等の助けを借りて、単純な学習率のスケジュールの増大に依存している。
- 参考スコア(独自算出の注目度): 48.44657553192801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a new approach to obtaining high probability regret bounds for
online learning with bandit feedback against an adaptive adversary. While
existing approaches all require carefully constructing optimistic and biased
loss estimators, our approach uses standard unbiased estimators and relies on a
simple increasing learning rate schedule, together with the help of
logarithmically homogeneous self-concordant barriers and a strengthened
Freedman's inequality.
Besides its simplicity, our approach enjoys several advantages. First, the
obtained high-probability regret bounds are data-dependent and could be much
smaller than the worst-case bounds, which resolves an open problem asked by Neu
(2015). Second, resolving another open problem of Bartlett et al. (2008) and
Abernethy and Rakhlin (2009), our approach leads to the first general and
efficient algorithm with a high-probability regret bound for adversarial linear
bandits, while previous methods are either inefficient or only applicable to
specific action sets. Finally, our approach can also be applied to learning
adversarial Markov Decision Processes and provides the first algorithm with a
high-probability small-loss bound for this problem.
- Abstract(参考訳): 我々は,適応的相手に対する盗聴フィードバックを用いたオンライン学習において,高い確率的後悔境界を得るための新しいアプローチを開発した。
既存のアプローチでは、楽観的で偏りのある損失推定器を慎重に構築する必要があるが、我々のアプローチは標準的な偏見のない推定器を使い、対数的に均質な自己調和障壁と強化されたフリードマンの不等式によって、単純な学習率のスケジュールに依存する。
単純さに加えて、我々のアプローチにはいくつかの利点がある。
第一に、得られた高い確率の後悔の限界はデータ依存であり、neu (2015) が求めたオープンな問題を解決する最悪の場合の限界よりもずっと小さい可能性がある。
第2に、bartlett et al. (2008) と abernethy and rakhlin (2009) の別のオープン問題を解くことにより、我々のアプローチは、逆線形バンドイットに縛られる高い確率性後悔を持つ、最初の汎用的かつ効率的なアルゴリズムへと導かれる。
最後に,本手法は,対向的マルコフ決定過程の学習にも適用可能であり,この問題に対して高い確率の低損失境界を持つ最初のアルゴリズムを提供する。
関連論文リスト
- Agnostic Multi-Robust Learning Using ERM [19.313739782029185]
頑健な学習における根本的な問題は非対称性である: 学習者は指数関数的に多くの摂動の全てを正しく分類する必要がある。
これとは対照的に、攻撃者は1つの摂動を成功させる必要がある。
本稿では,新しいマルチグループ設定を導入し,新しいマルチロバスト学習問題を提案する。
論文 参考訳(メタデータ) (2023-03-15T21:30:14Z) - Minimax Optimal Quantile and Semi-Adversarial Regret via
Root-Logarithmic Regularizers [31.102181563065844]
量子的(そしてより一般的には、KL)後悔は、最高の個人専門家と競争する目標を緩和し、敵対的なデータに関して、ほとんどの専門家と競争するだけである。
最近では、半対人パラダイム(Bilodeau、Negrea、Roy 2020)は、完全に対人的でも対人的でもないデータを考えることによって、対人的オンライン学習の代替緩和を提供する。
我々は、FTRLと別個のルート対数正規化器を併用したFTRLを用いて、両方のパラダイムにおいて最小限の後悔を達成し、どちらも正規Hedgeの変種と解釈できる。
論文 参考訳(メタデータ) (2021-10-27T22:38:52Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。