論文の概要: Conservative Contextual Combinatorial Cascading Bandit
- arxiv url: http://arxiv.org/abs/2104.08615v1
- Date: Sat, 17 Apr 2021 18:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 07:59:21.101852
- Title: Conservative Contextual Combinatorial Cascading Bandit
- Title(参考訳): 保守的文脈的組合せカスケードバンド
- Authors: Kun Wang, Canzhe Zhao, Shuai Li, Shuo Shao
- Abstract要約: 保守的なメカニズムは、探索と搾取の間のトレードオフをバランスさせる意思決定問題において望ましい性質である。
本稿では,その保守的メカニズムを組み込んだオンライン学習ゲームC4$-bandit(EmphConservative contextual cascading bandit)を提案する。
- 参考スコア(独自算出の注目度): 10.063174058866327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conservative mechanism is a desirable property in decision-making problems
which balance the tradeoff between the exploration and exploitation. We propose
the novel \emph{conservative contextual combinatorial cascading bandit
($C^4$-bandit)}, a cascading online learning game which incorporates the
conservative mechanism. At each time step, the learning agent is given some
contexts and has to recommend a list of items but not worse than the base
strategy and then observes the reward by some stopping rules. We design the
$C^4$-UCB algorithm to solve the problem and prove its n-step upper regret
bound for two situations: known baseline reward and unknown baseline reward.
The regret in both situations can be decomposed into two terms: (a) the upper
bound for the general contextual combinatorial cascading bandit; and (b) a
constant term for the regret from the conservative mechanism. The algorithm can
be directly applied to the search engine and recommender system. Experiments on
synthetic data demonstrate its advantages and validate our theoretical
analysis.
- Abstract(参考訳): 保守的なメカニズムは、探索と搾取の間のトレードオフをバランスさせる意思決定問題において望ましい性質である。
本稿では,保存的機構を組み込んだオンライン学習ゲームである<emph{conservative context combinatorial cascading bandit="c^4$-bandit")を提案する。
各ステップにおいて、学習エージェントにはいくつかのコンテキストが与えられ、基本戦略よりも悪くはない項目のリストを推奨し、いくつかの停止ルールによって報酬を観察する必要がある。
我々は,この問題を解決するために$c^4$-ucbアルゴリズムを設計し,そのnステップ上の後悔を2つの状況に対して証明する。
両方の状況における後悔は、2つの用語に分解することができる: (a) 一般的なコンビネートコンビネート・カスカディング・バンディットの上限、および (b) 保守的なメカニズムからの後悔に対する一定の用語。
このアルゴリズムは、検索エンジンおよびレコメンデータシステムに直接適用することができる。
合成データに関する実験は、その利点を示し、理論解析を検証する。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Contextual Blocking Bandits [35.235375147227124]
我々は,多腕バンディット問題の新たな変種について検討し,各ステップごとに,腕の平均報酬を決定する独立したサンプルコンテキストをプレイヤーが観察する。
アームを再生することで(すべてのコンテキストにわたって)将来の時間ステップの固定および既知の回数をブロックする。
我々は、$mathcalO(log T)$-regret w.r.t.$alpha$regret戦略を$Tタイムステップで保証し、$Omega(log(T)$low boundと一致する UCB ベースのフル情報アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-03-06T20:34:42Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。