論文の概要: Thompson Sampling for CVaR Bandits
- arxiv url: http://arxiv.org/abs/2012.05754v1
- Date: Thu, 10 Dec 2020 15:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 14:12:05.297019
- Title: Thompson Sampling for CVaR Bandits
- Title(参考訳): CVaRバンドのためのトンプソンサンプリング
- Authors: Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambryn
Maillard
- Abstract要約: 本研究では,各アームの品質をリスク値で測定するマルチアームバンディット問題について検討する。
CVaRバンディットに対する最初のトンプソンサンプリング手法を紹介する。
α-multinomial-tsはこの下限を達成した最初のアルゴリズムである。
- 参考スコア(独自算出の注目度): 8.784162652042959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Risk awareness is an important feature to formulate a variety of real world
problems. In this paper we study a multi-arm bandit problem in which the
quality of each arm is measured by the Conditional Value at Risk (CVaR) at some
level {\alpha} of the reward distribution. While existing works in this setting
mainly focus on Upper Confidence Bound algorithms, we introduce the first
Thompson Sampling approaches for CVaR bandits. Building on a recent work by
Riou and Honda (2020), we propose {\alpha}-NPTS for bounded rewards and
{\alpha}-Multinomial-TS for multinomial distributions. We provide a novel lower
bound on the CVaR regret which extends the concept of asymptotic optimality to
CVaR bandits and prove that {\alpha}-Multinomial-TS is the first algorithm to
achieve this lower bound. Finally, we demonstrate empirically the benefit of
Thompson Sampling approaches over their UCB counterparts.
- Abstract(参考訳): リスク認識は、様々な現実世界の問題を定式化する重要な特徴である。
本稿では,報奨分布のあるレベル {\alpha} におけるリスク条件値 (cvar) を用いて各アームの品質を測定するマルチアームバンディット問題について検討する。
この環境での既存の研究は主にアッパー信頼境界アルゴリズムに焦点を当てているが、CVaRバンディットに対する最初のトンプソンサンプリングアプローチを導入する。
リオウとホンダによる最近の研究に基づいて、有界報酬に対する {\alpha}-NPTS と多項分布に対する {\alpha}-Multinomial-TS を提案する。
本稿では,CVaR の反響的最適性の概念をCVaR の帯域に拡張し,この下界を最初に達成したアルゴリズムは {\alpha}-Multinomial-TS であることを示す。
最後に,彼らのucbに対するトンプソンサンプリングアプローチの利点を実証的に示す。
関連論文リスト
- Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。
我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文 参考訳(メタデータ) (2021-09-06T08:58:01Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。