Fugu-MT 論文翻訳(概要): Thompson Sampling for CVaR Bandits

論文の概要: Thompson Sampling for CVaR Bandits

arxiv url: http://arxiv.org/abs/2012.05754v1
Date: Thu, 10 Dec 2020 15:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-15 14:12:05.297019
Title: Thompson Sampling for CVaR Bandits
Title（参考訳）: CVaRバンドのためのトンプソンサンプリング
Authors: Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambryn Maillard
Abstract要約: 本研究では,各アームの品質をリスク値で測定するマルチアームバンディット問題について検討する。 CVaRバンディットに対する最初のトンプソンサンプリング手法を紹介する。 α-multinomial-tsはこの下限を達成した最初のアルゴリズムである。
参考スコア（独自算出の注目度）: 8.784162652042959
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Risk awareness is an important feature to formulate a variety of real world problems. In this paper we study a multi-arm bandit problem in which the quality of each arm is measured by the Conditional Value at Risk (CVaR) at some level {\alpha} of the reward distribution. While existing works in this setting mainly focus on Upper Confidence Bound algorithms, we introduce the first Thompson Sampling approaches for CVaR bandits. Building on a recent work by Riou and Honda (2020), we propose {\alpha}-NPTS for bounded rewards and {\alpha}-Multinomial-TS for multinomial distributions. We provide a novel lower bound on the CVaR regret which extends the concept of asymptotic optimality to CVaR bandits and prove that {\alpha}-Multinomial-TS is the first algorithm to achieve this lower bound. Finally, we demonstrate empirically the benefit of Thompson Sampling approaches over their UCB counterparts.
Abstract（参考訳）: リスク認識は、様々な現実世界の問題を定式化する重要な特徴である。本稿では,報奨分布のあるレベル {\alpha} におけるリスク条件値 (cvar) を用いて各アームの品質を測定するマルチアームバンディット問題について検討する。この環境での既存の研究は主にアッパー信頼境界アルゴリズムに焦点を当てているが、CVaRバンディットに対する最初のトンプソンサンプリングアプローチを導入する。リオウとホンダによる最近の研究に基づいて、有界報酬に対する {\alpha}-NPTS と多項分布に対する {\alpha}-Multinomial-TS を提案する。本稿では,CVaR の反響的最適性の概念をCVaR の帯域に拡張し,この下界を最初に達成したアルゴリズムは {\alpha}-Multinomial-TS であることを示す。最後に,彼らのucbに対するトンプソンサンプリングアプローチの利点を実証的に示す。

関連論文リスト

Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文参考訳（メタデータ） (2025-02-19T06:37:37Z)
Stochastically Constrained Best Arm Identification with Thompson Sampling [11.728338956484091]
制約が存在する場合の最適な腕識別の問題について考察する。我々は、この問題を解決する手段として、トンプソンサンプリング(TS)の一般的なアイデアを探求する。我々は、TSに基づくサンプリングアルゴリズムを設計し、後方収束率の最適性を確立し、数値例を用いてその優れた性能を示す。
論文参考訳（メタデータ） (2025-01-07T15:40:22Z)
Thompson Exploration with Best Challenger Rule in Best Arm Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文参考訳（メタデータ） (2023-10-01T01:37:02Z)
Contextual bandits with concave rewards, and an application to fair ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文参考訳（メタデータ） (2022-10-18T16:11:55Z)
Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文参考訳（メタデータ） (2022-09-16T23:34:44Z)
Finite-Time Regret of Thompson Sampling Algorithms for Exponential Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文参考訳（メタデータ） (2022-06-07T18:08:21Z)
Thompson Sampling for Bandits with Clustered Arms [7.237493755167875]
理論的および実験的に、与えられたクラスタ構造をどのように活用すれば、後悔と計算コストを大幅に改善できるかを示す。我々のアルゴリズムは、以前に提案されたクラスタ化された腕を持つバンディットのアルゴリズムと比較してよく機能する。
論文参考訳（メタデータ） (2021-09-06T08:58:01Z)
A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文参考訳（メタデータ） (2021-08-25T17:09:01Z)
Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文参考訳（メタデータ） (2021-06-15T14:40:34Z)
Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-11-16T15:53:22Z)
Statistical Efficiency of Thompson Sampling for Combinatorial Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文参考訳（メタデータ） (2020-06-11T17:12:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。