論文の概要: Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback
- arxiv url: http://arxiv.org/abs/2012.07048v2
- Date: Tue, 15 Dec 2020 11:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:49:19.793529
- Title: Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback
- Title(参考訳): 複合型および匿名型フィードバックを持つマルチアーム帯域適応アルゴリズム
- Authors: Siwei Wang, Haoyun Wang, Longbo Huang
- Abstract要約: 複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 32.62857394584907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the multi-armed bandit (MAB) problem with composite and anonymous
feedback. In this model, the reward of pulling an arm spreads over a period of
time (we call this period as reward interval) and the player receives partial
rewards of the action, convoluted with rewards from pulling other arms,
successively. Existing results on this model require prior knowledge about the
reward interval size as an input to their algorithms. In this paper, we propose
adaptive algorithms for both the stochastic and the adversarial cases, without
requiring any prior information about the reward interval. For the stochastic
case, we prove that our algorithm guarantees a regret that matches the lower
bounds (in order). For the adversarial case, we propose the first algorithm to
jointly handle non-oblivious adversary and unknown reward interval size. We
also conduct simulations based on real-world dataset. The results show that our
algorithms outperform existing benchmarks.
- Abstract(参考訳): 複合・匿名フィードバックを用いたマルチアームバンディット(MAB)問題について検討した。
このモデルでは、アームを引っ張る報酬は一定期間にわたって広がり(この期間を報酬間隔と呼ぶ)、プレイヤーはアクションの部分的な報酬を受け取り、他のアームを引っ張ることによる報酬と相まって連続する。
このモデルの既存の結果は、アルゴリズムへの入力として報酬間隔サイズに関する事前知識を必要とする。
本稿では,報奨区間に関する事前情報を必要とせず,確率的ケースと逆ケースの両方に対する適応アルゴリズムを提案する。
確率の場合、このアルゴリズムは(順序の)下限に一致する後悔を保証することを証明します。
逆境の場合,非聖書的逆境と未知の報酬区間サイズを共同で処理する最初のアルゴリズムを提案する。
また,実世界のデータセットに基づいてシミュレーションを行う。
その結果,我々のアルゴリズムは既存のベンチマークより優れていることがわかった。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Replicability is Asymptotically Free in Multi-armed Bandits [45.729105054410745]
この仕事の動機は、再現可能な機械学習の需要の増加にある。
特に、高い確率で、アルゴリズムのアクション列がデータセットに固有のランダム性の影響を受けないように、複製可能なアルゴリズムを考える。
論文 参考訳(メタデータ) (2024-02-12T03:31:34Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Gaussian Process Bandits with Aggregated Feedback [8.667190358712062]
我々は,固定予算内で最高の武器を推薦する新たな設定の下で,連続兵器の盗賊問題を考える。
これは、正確な報酬を得るのが不可能または高価であるアプリケーションによって動機付けられ、サブセットを超える平均のような、集約された報酬やフィードバックが利用可能である。
本稿では,推奨アームの集合的フィードバックに関して,新たな簡単な後悔の概念を提案する。
論文 参考訳(メタデータ) (2021-12-24T11:03:00Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Blocking Bandits [33.14975454724348]
我々は、腕を弾くことで固定時間帯で使用できなくなる、新しいマルチアームバンディット・セッティングについて考察する。
全ての武器の報酬と遅延の事前知識により、累積報酬を最適化する問題は擬似多項式時間アルゴリズムを含まないことを示した。
我々は,このアルゴリズムに対して,$c log T + o(log T)$ cumulative regret を持つ UCB ベースのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2019-07-27T20:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。