論文の概要: Introduction to Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/1904.07272v8
- Date: Wed, 3 Apr 2024 21:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-07 23:24:36.909476
- Title: Introduction to Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンド入門
- Authors: Aleksandrs Slivkins,
- Abstract要約: マルチアームバンディット(Multi-armed bandits)は、不確実性の下で意思決定を行うアルゴリズムのフレームワークである。
この本は、より入門的で教科書的な主題の扱いを提供する。
- 参考スコア(独自算出の注目度): 58.87314871998078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-armed bandits a simple but very powerful framework for algorithms that make decisions over time under uncertainty. An enormous body of work has accumulated over the years, covered in several books and surveys. This book provides a more introductory, textbook-like treatment of the subject. Each chapter tackles a particular line of work, providing a self-contained, teachable technical introduction and a brief review of the further developments; many of the chapters conclude with exercises. The book is structured as follows. The first four chapters are on IID rewards, from the basic model to impossibility results to Bayesian priors to Lipschitz rewards. The next three chapters cover adversarial rewards, from the full-feedback version to adversarial bandits to extensions with linear rewards and combinatorially structured actions. Chapter 8 is on contextual bandits, a middle ground between IID and adversarial bandits in which the change in reward distributions is completely explained by observable contexts. The last three chapters cover connections to economics, from learning in repeated games to bandits with supply/budget constraints to exploration in the presence of incentives. The appendix provides sufficient background on concentration and KL-divergence. The chapters on "bandits with similarity information", "bandits with knapsacks" and "bandits and agents" can also be consumed as standalone surveys on the respective topics.
- Abstract(参考訳): マルチアームは、不確実性の下で意思決定を行うアルゴリズムの、単純だが非常に強力なフレームワークである。
何年にもわたって膨大な量の研究が蓄積され、いくつかの書籍や調査でカバーされた。
この本は、より入門的で教科書的な主題の扱いを提供する。
各章は特定の作業に取り組み、自己完結した、教育可能な技術的紹介と、さらなる発展の簡単なレビューを提供する。
本書は次のように構成されている。
最初の4章はID報酬に関するもので、基本的なモデルから不可能な結果、ベイジアン前科からリプシッツ前科までである。
次の3章は敵の報酬をカバーしており、フルフィードバック版から敵の盗賊、線形報酬付き拡張、組合せ的に構造化されたアクションまでである。
第8章は文脈的盗賊であり、IIDと敵的盗賊の間の中間的基盤であり、報酬分布の変化は観測可能な文脈によって完全に説明される。
最後の3章は、繰り返しゲームで学ぶことから、供給と予算の制約のあるバンディットから、インセンティブの存在下での探索まで、経済学とのつながりをカバーしている。
虫垂は、濃度とKL-分岐の十分な背景を提供する。
類似情報付きバンド」、「ナプサック付きバンド」、および「バンドとエージェント」の章は、それぞれのトピックに関する独立した調査として消費される。
関連論文リスト
- Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。
本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:21:10Z) - Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - Distributed No-Regret Learning for Multi-Stage Systems with End-to-End Bandit Feedback [7.8539454948826375]
本稿では,エンド・ツー・エンドの帯域フィードバックを用いたマルチステージシステムについて検討する。
各ジョブは、結果を生成する前に、異なるエージェントによって管理される複数のステージを通過する必要があります。
本研究の目的は,敵対的環境におけるサブ線形後悔を実現するために,分散オンライン学習アルゴリズムを開発することである。
論文 参考訳(メタデータ) (2024-04-06T05:34:12Z) - On the Robustness of Epoch-Greedy in Multi-Agent Contextual Bandit
Mechanisms [0.7734726150561088]
最も顕著な文脈的バンディットアルゴリズムである$epsilon$-greedyは、戦略兵器がもたらした課題に対処するために拡張可能であることを示す。
また、$epsilon$-greedyは本質的に敵対的なデータ汚職攻撃に対して堅牢であり、汚職の量とともに線形に劣化するパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:20:31Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。
私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。
実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文 参考訳(メタデータ) (2021-11-12T20:33:09Z) - Multi-facet Contextual Bandits: A Neural Network Perspective [34.96188300126833]
本研究では,一面からユーザニーズを特徴付けるために,一群の盗賊を包含する多面的盗賊の新たな問題について検討する。
各ラウンドでは、与えられたユーザに対して、各バンディットから1つのアームを選択し、すべてのアームの組み合わせが最終的な報酬を最大化する。
この問題は、Eコマースやヘルスケアなどにおいてすぐに応用できる。
論文 参考訳(メタデータ) (2021-06-06T05:48:44Z) - Contextual Blocking Bandits [35.235375147227124]
我々は,多腕バンディット問題の新たな変種について検討し,各ステップごとに,腕の平均報酬を決定する独立したサンプルコンテキストをプレイヤーが観察する。
アームを再生することで(すべてのコンテキストにわたって)将来の時間ステップの固定および既知の回数をブロックする。
我々は、$mathcalO(log T)$-regret w.r.t.$alpha$regret戦略を$Tタイムステップで保証し、$Omega(log(T)$low boundと一致する UCB ベースのフル情報アルゴリズムの変種を提案する。
論文 参考訳(メタデータ) (2020-03-06T20:34:42Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z) - Bandits with Knapsacks beyond the Worst-Case [87.54497614804409]
最悪の場合の視点を超えた3つの結果を提示します。
第一に、対数的、インスタンス依存的後悔率の完全な特徴を与える上限と下限を提供する。
第二に、与えられたラウンドにおけるアルゴリズムの性能を追跡するBwKの「簡単な後悔」を考察し、数ラウンドを除いては小さくないことを示す。
論文 参考訳(メタデータ) (2020-02-01T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。