論文の概要: Joint AP Probing and Scheduling: A Contextual Bandit Approach
- arxiv url: http://arxiv.org/abs/2108.03297v1
- Date: Fri, 6 Aug 2021 20:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 04:54:18.895558
- Title: Joint AP Probing and Scheduling: A Contextual Bandit Approach
- Title(参考訳): 協調型ap探索とスケジューリング:コンテキストバンディットによるアプローチ
- Authors: Tianyi Xu, Ding Zhang, Parth H. Pathak, Zizhan Zheng
- Abstract要約: 我々は、モバイルクライアントと協調して機能する未知のデータレートを持つAPについて検討する。
各タイムステップで、どのリンクを使うかを決める前に、デバイスがリンクのサブセットを探索できると仮定する。
我々は、この問題を探索(CBwP)による文脈的帯域幅問題としてモデル化し、効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.804563975441742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a set of APs with unknown data rates that cooperatively serve a
mobile client. The data rate of each link is i.i.d. sampled from a distribution
that is unknown a priori. In contrast to traditional link scheduling problems
under uncertainty, we assume that in each time step, the device can probe a
subset of links before deciding which one to use. We model this problem as a
contextual bandit problem with probing (CBwP) and present an efficient
algorithm. We further establish the regret of our algorithm for links with
Bernoulli data rates. Our CBwP model is a novel extension of the classic
contextual bandit model and can potentially be applied to a large class of
sequential decision-making problems that involve joint probing and play under
uncertainty.
- Abstract(参考訳): 我々は、モバイルクライアントと協調して機能する未知のデータレートを持つAPについて検討する。
各リンクのデータレートは i.i.d. である。
事前性が不明な分布からサンプリングする。
不確実性のある従来のリンクスケジューリング問題とは対照的に、各タイムステップにおいて、どのリンクを使用するかを決定する前にリンクのサブセットを探索できると仮定する。
本稿では,この問題を探索問題(CBwP)としてモデル化し,効率的なアルゴリズムを提案する。
我々はBernoulliデータレートとリンクするアルゴリズムの後悔をさらに証明する。
我々のCBwPモデルは、古典的な文脈的バンディットモデルの新たな拡張であり、共同探索と不確実性の下でのプレーを含む、シーケンシャルな意思決定問題に応用できる可能性がある。
関連論文リスト
- PageRank Bandits for Link Prediction [72.61386754332776]
リンク予測は、リコメンダシステムやナレッジグラフ補完といった幅広いアプリケーションを用いたグラフ学習において重要な問題である。
本稿では,リンク予測を逐次的意思決定プロセスとして再構成し,各リンク予測インタラクションを逐次的に行う。
本稿では,PageRankとコンテキスト的帯域を結合した新しい融合アルゴリズム PRB (PageRank Bandits) を提案する。
論文 参考訳(メタデータ) (2024-11-03T02:39:28Z) - Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in
Contextual Bandit Algorithms [74.55200180156906]
文脈的盗賊問題は、探索と搾取の間のトレードオフをモデル化する。
我々のSyndicated Banditsフレームワークは最適な後悔の上限を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-05T22:30:21Z) - On Provable Backdoor Defense in Collaborative Learning [35.22450536986004]
悪意のあるユーザは、モデルの収束を防ぐためにデータをアップロードしたり、隠れたバックドアを注入したりできる。
標準的なテストデータではモデルが正常に動作するため、バックドア攻撃は特に検出が難しいが、特定のバックドアキーによってトリガーされた場合、間違ったアウトプットが与えられる。
既存のサブセット集約メソッドを一般化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-19T14:39:32Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Causal Bandits without prior knowledge using separating sets [3.1000291317725]
カウサル・バンディット(Causal Bandit)は、エージェントがシーケンシャルな意思決定プロセスにおいて最良のアクションを識別しなければならない古典的なバンディット問題の変種である。
これまでの文献で提案されている手法は、完全な因果グラフの正確な事前知識に依存している。
我々は、必ずしも因果知識に依存しない新たな因果バンディットアルゴリズムを定式化する。
論文 参考訳(メタデータ) (2020-09-16T20:08:03Z) - Kidney Exchange with Inhomogeneous Edge Existence Uncertainty [33.17472228570093]
我々は一致したサイクルとチェーンパッキングの問題の最大化を目指しており、そこでは障害の端まで有向グラフ内の構造を識別することを目的としている。
ユナイテッド・フォー・シェアリング(SUNO)のデータに対する我々のアプローチは、SAAベースの手法と同じ重み付けでより良いパフォーマンスを提供する。
論文 参考訳(メタデータ) (2020-07-07T04:08:39Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。