論文の概要: A High Performance, Low Complexity Algorithm for Multi-Player Bandits
Without Collision Sensing Information
- arxiv url: http://arxiv.org/abs/2102.10200v1
- Date: Fri, 19 Feb 2021 23:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:16:50.664526
- Title: A High Performance, Low Complexity Algorithm for Multi-Player Bandits
Without Collision Sensing Information
- Title(参考訳): 衝突センシング情報のないマルチプレイヤーバンディットの高性能・低複雑性アルゴリズム
- Authors: Cindy Trinh and Richard Combes
- Abstract要約: 本論文では,Selfish KL-UCBアルゴリズムに触発された計算複雑性が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。
ほぼすべての環境で、時には数桁のオーダーで、最先端のアルゴリズムが必要とする追加の知識なしで、最先端のアルゴリズムをはるかに上回ることを示す。
- 参考スコア(独自算出の注目度): 7.198362232890585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by applications in cognitive radio networks, we consider the
decentralized multi-player multi-armed bandit problem, without collision nor
sensing information. We propose Randomized Selfish KL-UCB, an algorithm with
very low computational complexity, inspired by the Selfish KL-UCB algorithm,
which has been abandoned as it provably performs sub-optimally in some cases.
We subject Randomized Selfish KL-UCB to extensive numerical experiments showing
that it far outperforms state-of-the-art algorithms in almost all environments,
sometimes by several orders of magnitude, and without the additional knowledge
required by state-of-the-art algorithms. We also emphasize the potential of
this algorithm for the more realistic dynamic setting, and support our claims
with further experiments. We believe that the low complexity and high
performance of Randomized Selfish KL-UCB makes it the most suitable for
implementation in practical systems amongst known algorithms.
- Abstract(参考訳): 認知無線ネットワークの応用に動機づけられ,分散マルチプレイヤー・マルチアーム・バンディット問題を,衝突やセンシング情報なしに検討した。
本論文では,自閉自閉KL-UCBアルゴリズムに触発された計算複雑度が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。
ランダム化利己的kl-ucbを広範囲な数値実験により,最先端のアルゴリズムをほぼすべての環境において,場合によっては数桁の桁数で,最先端のアルゴリズムに必要な追加の知識を必要とせず,はるかに優れていることを示した。
また,より現実的な動的設定のためのアルゴリズムの可能性を強調し,さらなる実験で我々の主張を支持する。
Randomized Selfish KL-UCBの低複雑さと高性能は、既知のアルゴリズムの中で実用的なシステムの実装に最も適していると考えています。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。
SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (2023-03-03T18:47:21Z) - Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation [0.0]
本稿では,マルチアームバンディットの強化学習領域とランダム検索戦略を組み合わせて,シミュレーションによる離散最適化問題の解法を提案する。
本研究の目的は,多腕バンディットの特性と遺伝的アルゴリズムの高次元解空間処理能力を組み合わせることである。
論文 参考訳(メタデータ) (2023-02-15T14:46:19Z) - A Fast Algorithm for PAC Combinatorial Pure Exploration [21.376800678915558]
我々は,高い報酬を得た集合や腕の発見に対処する,CPE( Combinatorial Pure Exploration)の問題を考える。
この問題に対する従来のアルゴリズムは非常に計算集約的であり、軽度に大きな問題であっても実用的ではない。
計算量的に軽量であり,数万のアームを持つ問題に容易に適用可能な新しいCPEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-08T09:52:56Z) - Deep Upper Confidence Bound Algorithm for Contextual Bandit Ranking of
Information Selection [0.0]
CMAB(Contextual Multi-armed bandits)は、ユーザの関心に応じて情報のフィルタリングと優先順位付けを学習するために広く使用されている。
本研究は,トップKアームを反復的に選択して報酬を最大化するCMABフレームワークに基づくトップKランキングの分析である。
本稿では,Deep Up Confidence Bound (UCB)アルゴリズムという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-08T13:32:14Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。