論文の概要: Towards Optimal Algorithms for Multi-Player Bandits without Collision
Sensing Information
- arxiv url: http://arxiv.org/abs/2103.13059v1
- Date: Wed, 24 Mar 2021 10:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:11:49.492749
- Title: Towards Optimal Algorithms for Multi-Player Bandits without Collision
Sensing Information
- Title(参考訳): 衝突センシング情報のないマルチプレイヤーバンディットの最適アルゴリズム
- Authors: Wei Huang and Richard Combes and Cindy Trinh
- Abstract要約: 衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。
このアルゴリズムは最先端アルゴリズムで共有される2つの問題を回避している。
それは腕の最小限の期待報酬に低い境界を入力として必要とせず、そのパフォーマンスは最小の期待報酬に逆比例してスケールしません。
- 参考スコア(独自算出の注目度): 9.467920768170515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel algorithm for multi-player multi-armed bandits without
collision sensing information. Our algorithm circumvents two problems shared by
all state-of-the-art algorithms: it does not need as an input a lower bound on
the minimal expected reward of an arm, and its performance does not scale
inversely proportionally to the minimal expected reward. We prove a theoretical
regret upper bound to justify these claims. We complement our theoretical
results with numerical experiments, showing that the proposed algorithm
outperforms state-of-the-art in practice as well.
- Abstract(参考訳): 衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。
本アルゴリズムは,最先端アルゴリズムで共有される2つの問題を回避している。アームの最小期待報酬を入力として下限として必要とせず,その性能は最小期待報酬に逆比例してスケールしない。
これらの主張を正当化するための理論的後悔を証明します。
理論的結果と数値実験を補完し,提案アルゴリズムが実用上最先端のアルゴリズムよりも優れていることを示す。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Some performance considerations when using multi-armed bandit algorithms
in the presence of missing data [1.0499611180329804]
マルチアームのバンディットアルゴリズムを使用する場合、欠落するデータの潜在的な影響は見落とされがちである。
ランダムに報酬が失われていると仮定したシミュレーション研究により,欠落したデータが複数の帯域幅アルゴリズムに与える影響について検討した。
論文 参考訳(メタデータ) (2022-05-08T09:20:10Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - On Regret with Multiple Best Arms [12.315392649501101]
バンディット設定における複数のベスト/ニア最適アームの存在に関する後悔問題について検討する。
我々の目標は、問題の未知の硬さに自動的に適応できるアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2020-06-26T04:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。