論文の概要: Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts
- arxiv url: http://arxiv.org/abs/2206.00586v1
- Date: Wed, 1 Jun 2022 15:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 16:34:46.219178
- Title: Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts
- Title(参考訳): 一時分割リワードを伴うマルチアーマッドバンド問題:部分フィードバック数について
- Authors: Giulia Romano, Andrea Agostini, Francesco Trov\`o, Nicola Gatti,
Marcello Restelli
- Abstract要約: 時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 53.579515853222986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a rising interest in industrial online applications where data
becomes available sequentially. Inspired by the recommendation of playlists to
users where their preferences can be collected during the listening of the
entire playlist, we study a novel bandit setting, namely Multi-Armed Bandit
with Temporally-Partitioned Rewards (TP-MAB), in which the stochastic reward
associated with the pull of an arm is partitioned over a finite number of
consecutive rounds following the pull. This setting, unexplored so far to the
best of our knowledge, is a natural extension of delayed-feedback bandits to
the case in which rewards may be dilated over a finite-time span after the pull
instead of being fully disclosed in a single, potentially delayed round. We
provide two algorithms to address TP-MAB problems, namely, TP-UCB-FR and
TP-UCB-EW, which exploit the partial information disclosed by the reward
collected over time. We show that our algorithms provide better asymptotical
regret upper bounds than delayed-feedback bandit algorithms when a property
characterizing a broad set of reward structures of practical interest, namely
alpha-smoothness, holds. We also empirically evaluate their performance across
a wide range of settings, both synthetically generated and from a real-world
media recommendation problem.
- Abstract(参考訳): データが順次利用できる産業用オンラインアプリケーションへの関心が高まっている。
プレイリスト全体の聴取中に好みを収集できるユーザへのプレイリストの推薦にインスパイアされ、プル後に腕の引き抜きに伴う確率的報酬が有限回連続するラウンドで分割されるような、時間的に分割されたリワード付きマルチアーメッドバンド(TP-MAB)という、新しいバンドイット設定について研究する。
この設定は、われわれの知る限りでは未検証だが、遅延フィードバックバンディットの自然な拡張であり、単一の遅延ラウンドで完全に開示されるのではなく、プル後に有限時間スパンで報酬を延ばすことができる。
本稿では,TP-MAB問題,すなわちTP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
提案手法は,α-smoothness (α-smoothness) と呼ばれる幅広い報酬構造を特徴付ける特性が持つ場合,遅延フィードバックバンディットアルゴリズムよりも漸近的後悔の上限を提供する。
また,合成生成と実世界のメディアレコメンデーション問題の両方から,幅広い設定でパフォーマンスを実証的に評価した。
関連論文リスト
- Biased Dueling Bandits with Stochastic Delayed Feedback [6.167074802065416]
遅延を伴う状況に対処するアルゴリズムを2つ提案する。
完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。
第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
論文 参考訳(メタデータ) (2024-08-26T19:49:12Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。
CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。
本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文 参考訳(メタデータ) (2022-10-13T04:26:06Z) - Break your Bandit Routine with LSD Rewards: a Last Switch Dependent
Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。
我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。
我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文 参考訳(メタデータ) (2021-10-22T14:53:13Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。