論文の概要: Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits
- arxiv url: http://arxiv.org/abs/2008.13629v2
- Date: Mon, 28 Mar 2022 02:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:39:24.961590
- Title: Statistically Robust, Risk-Averse Best Arm Identification in Multi-Armed
Bandits
- Title(参考訳): マルチアームバンディットにおける統計的にロバストなリスク回避型ベストアーム識別
- Authors: Anmol Kagrecha, Jayakrishnan Nair, and Krishna Jagannathan
- Abstract要約: このようなパラメトリック情報を利用する特殊なアルゴリズムは、パラメータが誤って特定された場合、不整合学習性能が高いことを示す。
主な貢献は, (i) 固定予算純探索条件下で統計的に堅牢なMABアルゴリズムの基本的な性能限界を確立すること, (ii) 二つの近似アルゴリズムのクラスを提案することである。
- 参考スコア(独自算出の注目度): 4.760079434948198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional multi-armed bandit (MAB) formulations usually make certain
assumptions about the underlying arms' distributions, such as bounds on the
support or their tail behaviour. Moreover, such parametric information is
usually 'baked' into the algorithms. In this paper, we show that specialized
algorithms that exploit such parametric information are prone to inconsistent
learning performance when the parameter is misspecified. Our key contributions
are twofold: (i) We establish fundamental performance limits of statistically
robust MAB algorithms under the fixed-budget pure exploration setting, and (ii)
We propose two classes of algorithms that are asymptotically near-optimal.
Additionally, we consider a risk-aware criterion for best arm identification,
where the objective associated with each arm is a linear combination of the
mean and the conditional value at risk (CVaR). Throughout, we make a very mild
'bounded moment' assumption, which lets us work with both light-tailed and
heavy-tailed distributions within a unified framework.
- Abstract(参考訳): 伝統的なマルチアーム・バンディット(MAB)の定式化は、通常、支持体の境界やその尾の振舞いなど、基礎となる腕の分布について特定の仮定を行う。
さらに、そのようなパラメトリック情報はアルゴリズムに'baked'される。
本稿では,パラメータが誤って特定された場合に,パラメータ情報を利用した特殊アルゴリズムが不整合学習性能を損なう傾向があることを示す。
私たちの重要な貢献は2つあります
一 固定予算純探索環境下で統計的に堅牢なMABアルゴリズムの基本性能限界を確立すること。
(ii)漸近的に最適に近いアルゴリズムを2種類提案する。
さらに,各腕に関連付けられた目的が,危険時の平均値と条件値の線形結合(CVaR)である,ベストアーム識別のためのリスク対応基準を検討する。
を仮定することで、統一されたフレームワーク内で、明るい尾の分布と重い尾の分布の両方を扱うことができます。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Constrained Pure Exploration Multi-Armed Bandits with a Fixed Budget [4.226118870861363]
固定予算の下で、制約のある純粋な探索、多武装バンディットの定式化を検討する。
本稿では,Successive Rejects フレームワークに基づく textscConstrained-SR というアルゴリズムを提案する。
また, ある特別な場合において, 関連する崩壊速度は情報理論的下界に対してほぼ最適であることを示した。
論文 参考訳(メタデータ) (2022-11-27T08:58:16Z) - Robust Contextual Linear Bandits [19.85979744859435]
本稿では、コンテキストによって捉えられていない腕間不均一性である、共通形の誤特定について研究する。
我々は,ロLinUCB という UCB アルゴリズムと,ロLinTS という後方サンプリングアルゴリズムという2つの効率的な帯域幅アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T05:18:09Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。