論文の概要: Nonstochastic Bandits with Composite Anonymous Feedback
- arxiv url: http://arxiv.org/abs/2112.02866v1
- Date: Mon, 6 Dec 2021 08:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 02:43:41.811682
- Title: Nonstochastic Bandits with Composite Anonymous Feedback
- Title(参考訳): 複合匿名フィードバックをもつ非確率帯域
- Authors: Nicol\`o Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Claudio
Gentile, Yishay Mansour
- Abstract要約: 本研究では,アクションの損失が直ちにプレイヤーに請求されない非確率的バンディット設定について検討する。
各ラウンドの最後にプレイヤーが観測した瞬間的な損失は、これまでプレイされたアクションの多くの損失成分の合計である。
- 参考スコア(独自算出の注目度): 41.38921728211769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate a nonstochastic bandit setting in which the loss of an action
is not immediately charged to the player, but rather spread over the subsequent
rounds in an adversarial way. The instantaneous loss observed by the player at
the end of each round is then a sum of many loss components of previously
played actions. This setting encompasses as a special case the easier task of
bandits with delayed feedback, a well-studied framework where the player
observes the delayed losses individually.
Our first contribution is a general reduction transforming a standard bandit
algorithm into one that can operate in the harder setting: We bound the regret
of the transformed algorithm in terms of the stability and regret of the
original algorithm. Then, we show that the transformation of a suitably tuned
FTRL with Tsallis entropy has a regret of order $\sqrt{(d+1)KT}$, where $d$ is
the maximum delay, $K$ is the number of arms, and $T$ is the time horizon.
Finally, we show that our results cannot be improved in general by exhibiting a
matching (up to a log factor) lower bound on the regret of any algorithm
operating in this setting.
- Abstract(参考訳): そこで本研究では,行動の損失がただちにプレイヤーに課金されるのではなく,それに続くラウンドを敵対的に広める非定型的バンディット設定について検討する。
各ラウンドの終了時にプレイヤーが観察した瞬間的損失は、以前にプレイされたアクションの多くの損失要素の合計となる。
この設定は、遅延した損失をプレイヤーが個別に観察するよく研究されたフレームワークである遅延したフィードバックを伴うバンディットの容易なタスクを特別なケースとして包含する。
我々の最初の貢献は、標準的なバンディットアルゴリズムをより難しい設定で操作できる1つに変換する一般的な還元である: 元のアルゴリズムの安定性と後悔の観点から、変換されたアルゴリズムの後悔を限定する。
すると、Tsallis entropy で適切に調整された FTRL の変換は、$d$ が最大遅延、$K$ がアームの数、$T$ がタイムホライズンであるような、オーダー $\sqrt{(d+1)KT}$ の後悔を持つことを示す。
最後に、この設定で動作しているアルゴリズムの後悔に基づいて(ログファクタまで)低いバウンドの一致を示すことにより、結果が一般に改善されないことを示す。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear
Contextual Bandits and Markov Decision Processes [59.61248760134937]
本稿では,$tildeO(sqrtT+zeta)$を後悔するアルゴリズムを提案する。
提案アルゴリズムは、最近開発された線形文脈帯域からの不確実性重み付き最小二乗回帰に依存する。
本稿では,提案アルゴリズムをエピソディックなMDP設定に一般化し,まず汚職レベル$zeta$への付加的依存を実現する。
論文 参考訳(メタデータ) (2022-12-12T15:04:56Z) - Non-Stationary Bandits under Recharging Payoffs: Improved Planning with
Sublinear Regret [34.44347218903429]
マルチアームバンディット設定は、最近非定常状態において研究されている。
各アクションの平均的なペイオフは、前回のプレイ以来のラウンド数の増加しない機能である。
我々は,我々のアルゴリズムがサブ線形後悔を伴う帯域幅アルゴリズムにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-29T23:55:36Z) - A Robust Phased Elimination Algorithm for Corruption-Tolerant Gaussian
Process Bandits [118.22458816174144]
そこで本稿では,エポックで動作するロバストな除去型アルゴリズムを提案し,探索と頻繁な切替を併用して,小さなアクションサブセットを選択し,各アクションを複数タイミングで実行する。
我々のアルゴリズムであるGP Robust Phased Elimination (RGP-PE) は、探索とエクスプロイトによる汚職に対するロバストネスのバランスに成功している。
GPバンディット設定におけるロバスト性の最初の実証的研究を行い,アルゴリズムが様々な敵攻撃に対してロバストであることを示す。
論文 参考訳(メタデータ) (2022-02-03T21:19:36Z) - Nonstochastic Bandits and Experts with Arm-Dependent Delays [17.272515865592542]
遅延が時間と腕に依存するような遅延環境で,非確率的な盗賊や専門家について検討する。
私たちの分析では、ドリフトに縛られた小説にヒンジを付け、1ラウンドのルックアヘッドを与えられた場合、アルゴリズムがどれだけの精度で実行できるかを測定しました。
論文 参考訳(メタデータ) (2021-11-02T13:36:11Z) - On Slowly-varying Non-stationary Bandits [25.305949034527202]
我々は、ゆっくりと変化する性質を持つ非定常包帯の動的後悔を考察する。
我々は、ゆっくりと変化する非定常帯域に対して、最初のインスタンス依存後悔上限を確立する。
我々のアルゴリズムは基本的にミニマックス最適であることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:56:19Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Adapting to Delays and Data in Adversarial Multi-Armed Bandits [7.310043452300736]
決定時に利用可能な情報のみを用いてステップサイズを調整するExp3アルゴリズムの変種を分析する。
我々は、観測された(最悪の場合ではなく)遅延や損失のシーケンスに適応する後悔の保証を得る。
論文 参考訳(メタデータ) (2020-10-12T20:53:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。