論文の概要: On Slowly-varying Non-stationary Bandits
- arxiv url: http://arxiv.org/abs/2110.12916v1
- Date: Mon, 25 Oct 2021 12:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:41:07.938805
- Title: On Slowly-varying Non-stationary Bandits
- Title(参考訳): 緩慢な非定常バンディットについて
- Authors: Ramakrishnan Krishnamurthy, Aditya Gopalan
- Abstract要約: 我々は、ゆっくりと変化する性質を持つ非定常包帯の動的後悔を考察する。
我々は、ゆっくりと変化する非定常帯域に対して、最初のインスタンス依存後悔上限を確立する。
我々のアルゴリズムは基本的にミニマックス最適であることを示す。
- 参考スコア(独自算出の注目度): 25.305949034527202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider minimisation of dynamic regret in non-stationary bandits with a
slowly varying property. Namely, we assume that arms' rewards are stochastic
and independent over time, but that the absolute difference between the
expected rewards of any arm at any two consecutive time-steps is at most a
drift limit $\delta > 0$. For this setting that has not received enough
attention in the past, we give a new algorithm which extends naturally the
well-known Successive Elimination algorithm to the non-stationary bandit
setting. We establish the first instance-dependent regret upper bound for
slowly varying non-stationary bandits. The analysis in turn relies on a novel
characterization of the instance as a detectable gap profile that depends on
the expected arm reward differences. We also provide the first minimax regret
lower bound for this problem, enabling us to show that our algorithm is
essentially minimax optimal. Also, this lower bound we obtain matches that of
the more general total variation-budgeted bandits problem, establishing that
the seemingly easier former problem is at least as hard as the more general
latter problem in the minimax sense. We complement our theoretical results with
experimental illustrations.
- Abstract(参考訳): 緩やかに変化する特性を有する非定常バンディットにおける動的後悔の最小化を検討する。
すなわち、アームの報酬は時間とともに確率的かつ独立であると仮定するが、任意の2つの連続するタイムステップにおける任意のアームの報酬の絶対差は、ドリフト極限$\delta > 0$である。
過去に十分な注意を払わなかったこの設定に対しては、よく知られた逐次除去アルゴリズムを非定常帯域設定に自然に拡張する新しいアルゴリズムを提案する。
我々は、ゆっくりと変化する非定常帯域に対する最初のインスタンス依存後悔上限を確立する。
この分析は、予想される腕の報酬差に依存する検出可能なギャッププロファイルとして、インスタンスの新たな特徴に依存している。
また、この問題に対する最初のミニマックス後悔の最小境界を提供し、アルゴリズムが本質的にミニマックス最適であることを示す。
また、この下界は、より一般的な総変量予算のバンディット問題と一致し、一見簡単な以前の問題は、ミニマックス感覚のより一般的な後者問題と同程度に困難であることを示す。
我々は実験的なイラストで理論結果を補完する。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - An Adaptive Approach for Infinitely Many-armed Bandits under Generalized Rotting Constraints [29.596684377841182]
本研究では、休息状態において、アームの平均報酬が各プルで減少する可能性があるが、そうでなければ変化しない、無限に多くの武器を持つバンディット問題を考察する。
本稿では,ゆがみ報酬に起因するバイアスや分散トレードオフを管理するために,適応的なスライディングウィンドウを備えたUTBを利用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:11:54Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Combinatorial Blocking Bandits with Stochastic Delays [33.65025386998747]
最近の研究は、各腕の報酬が最後の引き抜きから経過した時間の特別な機能であるマルチアームバンディット問題の自然変化を考察している。
本研究では, 上記のモデルを2つの方向に拡張する。 (i) 各ラウンドで複数の腕を演奏できる汎用的な設定を, 実現可能性制約の下で検討する。
我々は、利用可能な(非ブロック化された)アームの中で、常に最大で期待される報酬を再生する自然な欲求部分集合の近似を厳密に分析する。
腕の期待報酬が不明な場合、上記のアルゴリズムを盗賊に適応させる。
論文 参考訳(メタデータ) (2021-05-22T02:46:04Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - On Regret with Multiple Best Arms [12.315392649501101]
バンディット設定における複数のベスト/ニア最適アームの存在に関する後悔問題について検討する。
我々の目標は、問題の未知の硬さに自動的に適応できるアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2020-06-26T04:01:46Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。