論文の概要: Combinatorial Blocking Bandits with Stochastic Delays
- arxiv url: http://arxiv.org/abs/2105.10625v1
- Date: Sat, 22 May 2021 02:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 14:56:30.332516
- Title: Combinatorial Blocking Bandits with Stochastic Delays
- Title(参考訳): 確率的遅延を伴う組合せブロックバンド
- Authors: Alexia Atsidakou, Orestis Papadigenopoulos, Soumya Basu, Constantine
Caramanis, Sanjay Shakkottai
- Abstract要約: 最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
- 参考スコア(独自算出の注目度): 33.65025386998747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has considered natural variations of the multi-armed bandit
problem, where the reward distribution of each arm is a special function of the
time passed since its last pulling. In this direction, a simple (yet widely
applicable) model is that of blocking bandits, where an arm becomes unavailable
for a deterministic number of rounds after each play. In this work, we extend
the above model in two directions: (i) We consider the general combinatorial
setting where more than one arms can be played at each round, subject to
feasibility constraints. (ii) We allow the blocking time of each arm to be
stochastic. We first study the computational/unconditional hardness of the
above setting and identify the necessary conditions for the problem to become
tractable (even in an approximate sense). Based on these conditions, we provide
a tight analysis of the approximation guarantee of a natural greedy heuristic
that always plays the maximum expected reward feasible subset among the
available (non-blocked) arms. When the arms' expected rewards are unknown, we
adapt the above heuristic into a bandit algorithm, based on UCB, for which we
provide sublinear (approximate) regret guarantees, matching the theoretical
lower bounds in the limiting case of absence of delays.
- Abstract(参考訳): 近年の研究では、各腕の報酬分布が最後の引き抜きから経過した時間の特別な機能である多腕バンディット問題の自然変化が検討されている。
この方向では、単純な(より広く適用可能な)モデルは、ブラディットをブロックするものであり、各プレイ後に決定論的ラウンド数で腕が利用できなくなる。
本研究では, 上記のモデルを2つの方向に拡張する: (i) 各ラウンドで複数の腕を演奏できる一般的な組み合わせ設定を, 実現可能性制約の下で検討する。
(ii)各腕の閉塞時間が確率的であることを許容する。
まず,上記の設定の計算・無条件の硬さについて検討し,(近似的な意味でも)解決可能な問題となるために必要な条件を特定した。
これらの条件に基づき、利用可能な(非ブロック)アームの最大報酬実現可能部分集合を常に果たす自然な欲望ヒューリスティックの近似保証を厳密に解析する。
腕の期待される報酬が不明な場合には、このヒューリスティックを UCB に基づく帯域幅アルゴリズムに適応させ、遅延がない場合の理論的下限に一致して、サブ線形(近似的)後悔の保証を与える。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Finding Optimal Arms in Non-stochastic Combinatorial Bandits with
Semi-bandit Feedback and Finite Budget [6.759124697337311]
有限サンプリング予算制約の下では,半帯域フィードバックによる帯域幅問題を考える。
アクションは、一組のアームを選択し、選択されたセット内の各アームに対するフィードバックが受信される。
本稿では,アーム除去戦略の全スペクトルをカバーするのに適した汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T14:36:05Z) - The Countable-armed Bandit with Vanishing Arms [8.099977107670918]
我々は、数え切れないほど多くの腕を有限個の「型」に分割したバンドイット問題を考える。
非定常分布は、腕の個体群における各腕型の相対的な存在量を支配しており、いわゆる「腕貯水池」である。
論文 参考訳(メタデータ) (2021-10-23T02:47:55Z) - Recurrent Submodular Welfare and Matroid Blocking Bandits [22.65352007353614]
最近の研究は、マルチアームバンディット問題(MAB)の研究に焦点をあてている。
我々は、任意のマトロイドに対して$ (1 - frac1e)$-approximation を得ることのできる新しいアルゴリズムのアイデアを開発した。
鍵となる要素は、相関的な(インターリーブされた)スケジューリング技術である。
論文 参考訳(メタデータ) (2021-01-30T21:51:47Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Contextual Blocking Bandits [35.235375147227124]
我々は,多腕バンディット問題の新たな変種について検討し,各ステップごとに,腕の平均報酬を決定する独立したサンプルコンテキストをプレイヤーが観察する。
アームを再生することで(すべてのコンテキストにわたって)将来の時間ステップの固定および既知の回数をブロックする。
我々は、$mathcalO(log T)$-regret w.r.t.$alpha$regret戦略を$Tタイムステップで保証し、$Omega(log(T)$low boundと一致する UCB ベースのフル情報アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-03-06T20:34:42Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。