論文の概要: Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback
- arxiv url: http://arxiv.org/abs/2101.08534v1
- Date: Thu, 21 Jan 2021 10:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:03:52.710030
- Title: Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback
- Title(参考訳): 半バンドフィードバックを用いた組合せバンディットの効率的純探査
- Authors: Marc Jourdan, Mojm\'ir Mutn\'y, Johannes Kirschner, Andreas Krause
- Abstract要約: コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
- 参考スコア(独自算出の注目度): 51.21673420940346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combinatorial bandits with semi-bandit feedback generalize multi-armed
bandits, where the agent chooses sets of arms and observes a noisy reward for
each arm contained in the chosen set. The action set satisfies a given
structure such as forming a base of a matroid or a path in a graph. We focus on
the pure-exploration problem of identifying the best arm with fixed confidence,
as well as a more general setting, where the structure of the answer set
differs from the one of the action set. Using the recently popularized game
framework, we interpret this problem as a sequential zero-sum game and develop
a CombGame meta-algorithm whose instances are asymptotically optimal algorithms
with finite time guarantees. In addition to comparing two families of learners
to instantiate our meta-algorithm, the main contribution of our work is a
specific oracle efficient instance for best-arm identification with
combinatorial actions. Based on a projection-free online learning algorithm for
convex polytopes, it is the first computationally efficient algorithm which is
asymptotically optimal and has competitive empirical performance.
- Abstract(参考訳): 半バンドフィードバックの組合せバンディットはマルチアームのバンディットを一般化し、エージェントはアームセットを選択し、選択されたセットに含まれる各アームに対するノイズの報奨を観察する。
アクションセットは、グラフ内のマトロイドやパスの基底を形成するような所定の構造を満たす。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
最近普及したゲームフレームワークを用いて、この問題を逐次ゼロサムゲームとして解釈し、有限時間保証の漸近的最適アルゴリズムであるCombGameメタアルゴリズムを開発する。
学習者の2つの家族を比較してメタアルゴリズムをインスタンス化することに加えて、我々の研究の主な貢献は、組合せ行動を伴うベストアーム識別のための特定のオラクル効率の良い例である。
凸多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づき、漸近的に最適であり、競合的な経験的性能を持つ最初の計算効率の高いアルゴリズムである。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - On Regret with Multiple Best Arms [12.315392649501101]
バンディット設定における複数のベスト/ニア最適アームの存在に関する後悔問題について検討する。
我々の目標は、問題の未知の硬さに自動的に適応できるアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2020-06-26T04:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。