論文の概要: Dynamic Spectrum Access using Stochastic Multi-User Bandits
- arxiv url: http://arxiv.org/abs/2101.04388v1
- Date: Tue, 12 Jan 2021 10:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 08:47:53.191546
- Title: Dynamic Spectrum Access using Stochastic Multi-User Bandits
- Title(参考訳): 確率的マルチユーザバンディットを用いた動的スペクトルアクセス
- Authors: Meghana Bande, Akshayaa Magesh, Venugopal V. Veeravalli
- Abstract要約: 提案アルゴリズムは推定フェーズと割り当てフェーズから構成される。
各ユーザがアルゴリズムを採用すると、システム全体の後悔は1時間当たり$O(log T)$のオーダー最適値であることが示される。
このアルゴリズムは、システムのユーザ数が時間とともに進化する動的ケースに拡張され、サブ線形後悔につながることが示されている。
- 参考スコア(独自算出の注目度): 23.129398025477204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A stochastic multi-user multi-armed bandit framework is used to develop
algorithms for uncoordinated spectrum access. In contrast to prior work, it is
assumed that rewards can be non-zero even under collisions, thus allowing for
the number of users to be greater than the number of channels. The proposed
algorithm consists of an estimation phase and an allocation phase. It is shown
that if every user adopts the algorithm, the system wide regret is
order-optimal of order $O(\log T)$ over a time-horizon of duration $T$. The
regret guarantees hold for both the cases where the number of users is greater
than or less than the number of channels. The algorithm is extended to the
dynamic case where the number of users in the system evolves over time, and is
shown to lead to sub-linear regret.
- Abstract(参考訳): 非コーディネートスペクトルアクセスのためのアルゴリズムを開発するために、確率的マルチユーザーマルチアームバンディットフレームワークが使用される。
先行研究とは対照的に、衝突しても報酬はゼロではないと仮定され、それによってユーザ数をチャネル数よりも多くすることができる。
提案アルゴリズムは推定フェーズと割り当てフェーズから構成される。
各ユーザがアルゴリズムを採用すると、システム全体の後悔は、持続時間$t$の時間ホリゾンよりも、オーダー$o(\log t)$のオーダーオプティマイズであることが示される。
後悔の保証は、ユーザ数がチャネル数以上である場合とチャネル数未満の場合の両方に適用される。
このアルゴリズムは、システムのユーザ数が時間とともに進化する動的ケースに拡張され、サブ線形後悔につながることが示されている。
関連論文リスト
- Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - User-Level Differential Privacy With Few Examples Per User [73.81862394073308]
サンプルスカース方式では,各ユーザが少数のサンプルしか持たないため,以下の結果が得られる。
近似DPについては,任意の項目レベルDPアルゴリズムをユーザレベルDPアルゴリズムに汎用変換する。
ユーザレベル設定に指数的機構(McSherry, Talwar FOCS 2007)を適用するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T21:51:55Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits [11.918230810566945]
本研究では,学習過程において各腕の報酬統計が数回変化しうる非定常的マルチアームバンディット問題について検討する。
我々は、$K$の武器付きバンディット問題において、ほぼ最適の$widetilde O(sqrtK N(S+1))$ dynamic regretを実現する方法を提案する。
論文 参考訳(メタデータ) (2022-01-17T17:23:56Z) - Combinatorial Multi-armed Bandits for Resource Allocation [23.869080705146395]
モチベーションの例としては、限られたコンピューティング時間や無線スペクトル帯域を複数のユーザに割り当てることが挙げられる。
意思決定者は、各ユーザの報酬に対するフィードバックから、各ユーザに割り当てられたリソースの価値を学習すべきである。
論文 参考訳(メタデータ) (2021-05-10T13:55:30Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - An Efficient Algorithm For Generalized Linear Bandit: Online Stochastic
Gradient Descent and Thompson Sampling [83.48992319018147]
プレイヤーが過去の観測結果に基づいて逐次意思決定を行い、累積報酬を最大化する文脈的帯域幅問題を考える。
この問題を解決する自然な方法は、ステップごとの時間とメモリの複雑さを一定に抑えるために、オンライン勾配降下(SGD)を適用することである。
本研究では,オンラインSGDが一般化線形帯域問題に適用可能であることを示す。
過去の情報を活用するためにシングルステップのSGD更新を利用するSGD-TSアルゴリズムは、全時間複雑度で$tildeO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2020-06-07T01:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。