論文の概要: Max-Min Grouped Bandits
- arxiv url: http://arxiv.org/abs/2111.08862v1
- Date: Wed, 17 Nov 2021 01:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 14:15:34.301069
- Title: Max-Min Grouped Bandits
- Title(参考訳): Max-Min グループバンド
- Authors: Zhenlin Wang and Jonathan Scarlett
- Abstract要約: マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
- 参考スコア(独自算出の注目度): 48.62520520818357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a multi-armed bandit problem termed max-min
grouped bandits, in which the arms are arranged in possibly-overlapping groups,
and the goal is to find a group whose worst arm has the highest mean reward.
This problem is of interest in applications such as recommendation systems, and
is also closely related to widely-studied robust optimization problems. We
present two algorithms based successive elimination and robust optimization,
and derive upper bounds on the number of samples to guarantee finding a max-min
optimal or near-optimal group, as well as an algorithm-independent lower bound.
We discuss the degree of tightness of our bounds in various cases of interest,
and the difficulties in deriving uniformly tight bounds.
- Abstract(参考訳): 本稿では, 腕を重なり合う可能性のあるグループに配置し, 最下位の腕が平均報酬が最も高いグループを見つけることを目的とした, マックスミン群バンディットと呼ばれるマルチアームバンディット問題を提案する。
この問題はレコメンデーションシステムのようなアプリケーションにも関心があり、広く研究されているロバスト最適化問題とも密接に関連している。
逐次除去とロバスト最適化に基づく2つのアルゴリズムを示し,サンプル数の上界を導出し,最大ミン最適群や近似最適群,アルゴリズムに依存しない下界を求めることを保証する。
興味のある場合における境界の厳密さの程度と、一様に厳密な境界を導出することの難しさについて論じる。
関連論文リスト
- Optimization of Inter-group Criteria for Clustering with Minimum Size
Constraints [2.7195102129095003]
クラスタリングの品質を評価するために使用される内部尺度は、通常、グループ内および/またはグループ間基準を考慮に入れます。
証明可能な近似保証付きアルゴリズムを提案し, 前者を最適化する。
10個の実際のデータセットを用いて実証的研究を行い、我々の手法が実用的な環境で非常にうまく機能することを示す。
論文 参考訳(メタデータ) (2024-01-13T14:59:12Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Contextual Combinatorial Multi-output GP Bandits with Group Constraints [11.317136648551537]
連合型多武装バンディット問題では、クライアントを保護するための最小限のプライバシー要件を満たしながら、世界的報酬を最大化することが主な目標である。
我々は、グループやアクションセットの変更によるコンテキスト的バンディットの設定を検討し、そこでは、類似のベースアームがグループに到着し、スーパーアームと呼ばれるベースアームのセットが各ラウンドで選択され、スーパーアームの報酬を最大化し、ベースアームが選択されたグループの報酬の制約を満たす。
次に、累積スーパーアーム報酬の最大化と充足のバランスをとる、Thresholded Combinatored upper Confidence Bounds (TCGP-UCB)と呼ばれる新しい二重UCBGPバンドアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-29T18:39:09Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。