論文の概要: Remote Contextual Bandits
- arxiv url: http://arxiv.org/abs/2202.05182v1
- Date: Thu, 10 Feb 2022 17:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 16:54:22.006357
- Title: Remote Contextual Bandits
- Title(参考訳): リモートコンテキストバンド
- Authors: Francesco Pase, Deniz Gunduz, Michele Zorzi
- Abstract要約: 遠隔コンテキスト型マルチアームバンディット(CMAB)問題を考える。
意思決定者は、状況と報酬を観察するが、エージェントが行う行動は、レート制限された通信チャネルを介して伝達しなければならない。
エージェントの数を無限大にすることで,この問題の基本的な情報理論的限界について検討し,トンプソンサンプリング戦略を採用する際に達成された後悔について検討する。
- 参考スコア(独自算出の注目度): 18.40166098572039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a remote contextual multi-armed bandit (CMAB) problem, in which
the decision-maker observes the context and the reward, but must communicate
the actions to be taken by the agents over a rate-limited communication
channel. This can model, for example, a personalized ad placement application,
where the content owner observes the individual visitors to its website, and
hence has the context information, but must convey the ads that must be shown
to each visitor to a separate entity that manages the marketing content. In
this remote CMAB (R-CMAB) problem, the constraint on the communication rate
between the decision-maker and the agents imposes a trade-off between the
number of bits sent per agent and the acquired average reward. We are
particularly interested in characterizing the rate required to achieve
sub-linear regret. Consequently, this can be considered as a policy compression
problem, where the distortion metric is induced by the learning objectives. We
first study the fundamental information theoretic limits of this problem by
letting the number of agents go to infinity, and study the regret achieved when
Thompson sampling strategy is adopted. In particular, we identify two distinct
rate regions resulting in linear and sub-linear regret behavior, respectively.
Then, we provide upper bounds on the achievable regret when the decision-maker
can reliably transmit the policy without distortion.
- Abstract(参考訳): 我々は、意思決定者が文脈と報酬を観察するリモート・コンテクスト・マルチアーム・バンディット(CMAB)問題を考えるが、レート制限通信チャネルを介してエージェントが取るべき行動を伝える必要がある。
これは、例えばパーソナライズされた広告配置アプリケーションで、コンテンツ所有者が個々の訪問者をウェブサイトに観察し、それゆえコンテキスト情報を持っているが、各訪問者に示さなければならない広告を、マーケティングコンテンツを管理する別のエンティティに伝達しなければならない。
この遠隔CMAB(R-CMAB)問題において、意思決定者とエージェント間の通信速度の制約は、エージェント毎に送信されるビット数と取得された平均報酬との間のトレードオフを課す。
私たちは特に、サブ線形後悔を達成するのに必要な率を特徴づけることに興味があります。
したがって、このことは、学習目標によって歪み計量が誘導される政策圧縮問題とみなすことができる。
まず, エージェント数の無限大化を図り, トンプソンサンプリング戦略を採用する際に達成した後悔について検討する。
特に,線形および準線形後悔行動をもたらす2つの異なる速度領域を同定した。
そして、意思決定者が歪みなく確実に方針を伝達できる場合に、達成可能な後悔の上限を与える。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Cooperative Actor-Critic via TD Error Aggregation [12.211031907519827]
本稿では、プライバシー問題に違反しないTDエラーアグリゲーションを備えた分散型アクター批判アルゴリズムを提案する。
我々は,各エージェントが平均目標関数を最大化するために,ステップサイズを小さくして収束解析を行う。
論文 参考訳(メタデータ) (2022-07-25T21:10:39Z) - Rate-Constrained Remote Contextual Bandits [18.40166098572039]
エージェント群が同じコンテキスト型マルチアーム・バンディット(CMAB)問題を解くために,レート制約付きコンテキスト型マルチアーム・バンディット(RC-CMAB)問題を考える。
エージェントの数を無限にすることで,この問題の基本的な情報理論的限界について検討する。
次に, 逆KL偏差を歪み距離として用いた場合, 無限エージェントの極限で達成可能な最適圧縮スキームを解析する。
論文 参考訳(メタデータ) (2022-04-26T22:34:54Z) - Contextual Bandits for Advertising Campaigns: A Diffusion-Model
Independent Approach (Extended Version) [73.59962178534361]
拡散ネットワークや情報伝達の仕方を決定するモデルについてはほとんど知られていないと考えられる影響問題について検討する。
この設定では、キャンペーンの実行中に主要な拡散パラメータを学習するために探索-探索アプローチが使用できる。
本稿では,2つの文脈的マルチアーム・バンディットの手法と,インフルエンサーの残りのポテンシャルに対する上限について比較する。
論文 参考訳(メタデータ) (2022-01-13T22:06:10Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Learning Selective Communication for Multi-Agent Path Finding [18.703918339797283]
決定因果通信(Decision Causal Communication、DCC)は、エージェントが隣人を選択して通信を行うためのシンプルで効率的なモデルである。
DCCは大規模問題を扱うために分散実行に適している。
論文 参考訳(メタデータ) (2021-09-12T03:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。