論文の概要: Rate-Constrained Remote Contextual Bandits
- arxiv url: http://arxiv.org/abs/2204.12620v1
- Date: Tue, 26 Apr 2022 22:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 14:46:12.767922
- Title: Rate-Constrained Remote Contextual Bandits
- Title(参考訳): レート制約付き遠隔コンテキストバンディット
- Authors: Francesco Pase, Deniz G\"und\"uz, Michele Zorzi
- Abstract要約: エージェント群が同じコンテキスト型マルチアーム・バンディット(CMAB)問題を解くために,レート制約付きコンテキスト型マルチアーム・バンディット(RC-CMAB)問題を考える。
エージェントの数を無限にすることで,この問題の基本的な情報理論的限界について検討する。
次に, 逆KL偏差を歪み距離として用いた場合, 無限エージェントの極限で達成可能な最適圧縮スキームを解析する。
- 参考スコア(独自算出の注目度): 18.40166098572039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a rate-constrained contextual multi-armed bandit (RC-CMAB)
problem, in which a group of agents are solving the same contextual multi-armed
bandit (CMAB) problem. However, the contexts are observed by a remotely
connected entity, i.e., the decision-maker, that updates the policy to maximize
the returned rewards, and communicates the arms to be sampled by the agents to
a controller over a rate-limited communications channel. This framework can be
applied to personalized ad placement, whenever the content owner observes the
website visitors, and hence has the context, but needs to transmit the ads to
be shown to a controller that is in charge of placing the marketing content.
Consequently, the rate-constrained CMAB (RC-CMAB) problem requires the study of
lossy compression schemes for the policy to be employed whenever the constraint
on the channel rate does not allow the uncompressed transmission of the
decision-maker's intentions. We characterize the fundamental information
theoretic limits of this problem by letting the number of agents go to
infinity, and study the regret that can be achieved, identifying the two
distinct rate regions leading to linear and sub-linear regrets respectively. We
then analyze the optimal compression scheme achievable in the limit with
infinite agents, when using the forward and reverse KL divergence as distortion
metric. Based on this, we also propose a practical coding scheme, and provide
numerical results.
- Abstract(参考訳): エージェント群が同じコンテキスト型マルチアーム・バンディット(CMAB)問題を解くために,レート制約付きコンテキスト型マルチアーム・バンディット(RC-CMAB)問題を考える。
しかし、文脈は遠隔接続されたエンティティ、すなわち意思決定者によって観察され、返された報酬を最大化するためにポリシーを更新し、エージェントによってサンプリングされるアームをレート制限された通信チャネルを介してコントローラに伝達する。
このフレームワークは、コンテンツ所有者がウェブサイトの訪問者を観察するたびに、パーソナライズされた広告配置に適用することができ、したがってコンテキストを持っているが、その広告をマーケティングコンテンツの配置を担当するコントローラに送信する必要がある。
したがって、レート制約CMAB (RC-CMAB) 問題は、チャネルレートの制約が意思決定者の意図を非圧縮的に伝達することを許さない場合に、ポリシーの損失圧縮スキームを研究する必要がある。
エージェント数を無限大にすることで,この問題の基本情報理論上の限界を特徴付け,その実現可能な後悔について検討し,リニアとサブリニアの後悔につながる2つの異なるレート領域を特定した。
次に, 歪み計量として前方および逆kl発散を用いる場合, 無限エージェントの極限で実現可能な最適圧縮スキームを解析する。
これに基づいて,実用的な符号化方式を提案し,数値計算結果を提供する。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Towards Model-Free LQR Control over Rate-Limited Channels [2.908482270923597]
作業者エージェントが(LQRコストの)量子化ポリシー勾配を有限ビットレートのノイズレスチャネル上でサーバに送信する環境について検討する。
我々は、適応量子化グラディエントDescent (textttAQGD) という新しいアルゴリズムを提案し、ある有限しきい値ビットレートを超えると、textttAQGDは、グローバルな最適ポリシーへの指数的に高速な収束を保証することを証明した。
論文 参考訳(メタデータ) (2024-01-02T15:59:00Z) - Collaborative Optimization of the Age of Information under Partial
Observability [34.43476648472727]
Age of Information (AoI)は、受信側におけるセンサーと制御データの鮮度である。
我々は、容量制限の非FIFO二重チャネルを共有する多数のセンサエージェントに対して、分散AoI最小化伝送ポリシーを考案する。
また、平均場制御近似と強化学習を利用して、スケーラブルで最適なソリューションを導出する。
論文 参考訳(メタデータ) (2023-12-20T12:34:54Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z) - Linear Stochastic Bandits over a Bit-Constrained Channel [37.01818450308119]
我々は,ビット制約チャネル上に線形バンドレットの新たな定式化を導入する。
サーバの目標は、未知のモデルパラメータの推定値に基づいてアクションを取ることで、累積的後悔を最小限に抑えることである。
未知のモデルが$d$-dimensionalである場合、チャネル容量は$O(d)$ bits suffices で順序最適後悔を実現する。
論文 参考訳(メタデータ) (2022-03-02T15:54:03Z) - Remote Contextual Bandits [18.40166098572039]
遠隔コンテキスト型マルチアームバンディット(CMAB)問題を考える。
意思決定者は、状況と報酬を観察するが、エージェントが行う行動は、レート制限された通信チャネルを介して伝達しなければならない。
エージェントの数を無限大にすることで,この問題の基本的な情報理論的限界について検討し,トンプソンサンプリング戦略を採用する際に達成された後悔について検討する。
論文 参考訳(メタデータ) (2022-02-10T17:31:20Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Communication-Efficient Split Learning Based on Analog Communication and
Over the Air Aggregation [48.150466900765316]
スプリットラーニング(SL)は、その固有のプライバシー保護機能と、限られた計算能力を持つデバイスに対する協調推論を可能にする能力により、最近人気を集めている。
標準SLアルゴリズムは、理想的なデジタル通信システムを想定し、通信帯域不足の問題を無視している。
本稿では,エージェント側で追加層を導入し,重みとバイアスの選択を制約し,空気の凝集を確実にするための新しいSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-02T07:49:41Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。