論文の概要: A One-Size-Fits-All Solution to Conservative Bandit Problems
- arxiv url: http://arxiv.org/abs/2012.07341v3
- Date: Wed, 16 Dec 2020 08:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 05:48:46.036394
- Title: A One-Size-Fits-All Solution to Conservative Bandit Problems
- Title(参考訳): 保守的帯域問題に対する一次元全解法
- Authors: Yihan Du, Siwei Wang, Longbo Huang
- Abstract要約: 我々は、サンプルパス報酬制約を伴う保守的なバンディット問題(CBP)のファミリーについて研究する。
CBPに対するOne-Size-Fits-Allソリューションを提案し、その応用を3つの包括問題に提示する。
- 参考スコア(独自算出の注目度): 32.907883501286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study a family of conservative bandit problems (CBPs) with
sample-path reward constraints, i.e., the learner's reward performance must be
at least as well as a given baseline at any time. We propose a
One-Size-Fits-All solution to CBPs and present its applications to three
encompassed problems, i.e. conservative multi-armed bandits (CMAB),
conservative linear bandits (CLB) and conservative contextual combinatorial
bandits (CCCB). Different from previous works which consider high probability
constraints on the expected reward, we focus on a sample-path constraint on the
actually received reward, and achieve better theoretical guarantees
($T$-independent additive regrets instead of $T$-dependent) and empirical
performance. Furthermore, we extend the results and consider a novel
conservative mean-variance bandit problem (MV-CBP), which measures the learning
performance with both the expected reward and variability. For this extended
problem, we provide a novel algorithm with $O(1/T)$ normalized additive regrets
($T$-independent in the cumulative form) and validate this result through
empirical evaluation.
- Abstract(参考訳): 本稿では,サンプルパス報酬制約を伴う保守的バンディット問題(cbps)の一家系について検討する。
本稿では, CBP に対する 1-Size-Fits-All ソリューションを提案する。
保守的多腕包帯(CMAB)、保守的線形包帯(CLB)、保守的文脈結合包帯(CCCB)。
期待される報酬に対する高い確率制約を考慮した以前の研究とは異なり、実際に受け取った報酬に対するサンプルパス制約に注目し、より理論的な保証(T$非依存的な追加的後悔)と経験的なパフォーマンスを達成する。
さらに,評価結果を拡張し,期待される報奨と変動性の両方で学習性能を測定する新しい平均分散バンドイット問題(MV-CBP)を検討する。
この拡張問題に対して、o(1/t)$正規化加法後悔(累積形式ではt$非依存)を持つ新しいアルゴリズムを提供し、経験的評価によって検証する。
関連論文リスト
- Fixed-Budget Differentially Private Best Arm Identification [62.36929749450298]
差分プライバシー制約下における固定予算制度における線形包帯のベストアーム識別(BAI)について検討した。
誤差確率に基づいてミニマックス下限を導出し、下限と上限が指数関数的に$T$で崩壊することを示した。
論文 参考訳(メタデータ) (2024-01-17T09:23:25Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。
フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T17:13:09Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Bandits Corrupted by Nature: Lower Bounds on Regret and Robust
Optimistic Algorithm [14.214707836697823]
破損したバンドイット問題、すなわち、$k$未知の報酬分布を持つ多重武装バンドイット問題について検討する。
本稿では,ハマー推定器上に構築した,破損した盗賊に対する新しいUPB型アルゴリズムを提案する。
異なる報酬分布と異なるレベルの汚職に対する腐敗した包帯の解法におけるHubUCBとSeqHubUCBの有効性を実験的に説明した。
論文 参考訳(メタデータ) (2022-03-07T07:44:05Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。