論文の概要: Distributed Stochastic Bandit Learning with Context Distributions
- arxiv url: http://arxiv.org/abs/2207.14391v1
- Date: Thu, 28 Jul 2022 22:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 13:00:27.664582
- Title: Distributed Stochastic Bandit Learning with Context Distributions
- Title(参考訳): 文脈分布を用いた分散確率バンディット学習
- Authors: Jiabin Lin and Shana Moothedath
- Abstract要約: 本研究では,未知のコンテキストを持つ分散マルチアームコンテキスト帯域幅の問題について検討する。
本モデルでは, エージェントはコンテキスト分布のみを観察し, エージェントに正確なコンテキストが不明である。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of distributed stochastic multi-arm contextual bandit
with unknown contexts, in which M agents work collaboratively to choose optimal
actions under the coordination of a central server in order to minimize the
total regret. In our model, an adversary chooses a distribution on the set of
possible contexts and the agents observe only the context distribution and the
exact context is unknown to the agents. Such a situation arises, for instance,
when the context itself is a noisy measurement or based on a prediction
mechanism as in weather forecasting or stock market prediction. Our goal is to
develop a distributed algorithm that selects a sequence of optimal actions to
maximize the cumulative reward. By performing a feature vector transformation
and by leveraging the UCB algorithm, we propose a UCB algorithm for stochastic
bandits with context distribution and prove that our algorithm achieves a
regret and communications bounds of $O(d\sqrt{MT}log^2T)$ and $O(M^{1.5}d^3)$,
respectively, for linearly parametrized reward functions. We also consider a
case where the agents observe the actual context after choosing the action. For
this setting we presented a modified algorithm that utilizes the additional
information to achieve a tighter regret bound. Finally, we validated the
performance of our algorithms and compared it with other baseline approaches
using extensive simulations on synthetic data and on the real world movielens
dataset.
- Abstract(参考訳): 本研究では,mエージェントが協調して作業し,中央サーバの調整下で最適な行動を選択することで,全体の後悔を最小限に抑える分散確率的マルチアームコンテクストバンディットの問題について検討する。
我々のモデルでは、敵は可能なコンテキストの集合上の分布を選択し、エージェントはコンテキスト分布のみを観察し、正確なコンテキストはエージェントに未知である。
このような状況は、例えば、天気予報や株式市場の予測のように、コンテキスト自体が騒がしい測定である場合や予測メカニズムに基づいて発生する。
我々のゴールは、累積報酬を最大化するために最適な行動列を選択する分散アルゴリズムを開発することである。
特徴ベクトル変換を行い, UCBアルゴリズムを用いて文脈分布を持つ確率的包帯に対するUTBアルゴリズムを提案し, 線形パラメタ化報酬関数に対してそれぞれ$O(d\sqrt{MT}log^2T)$と$O(M^{1.5}d^3)$の残差と通信境界を達成できることを証明する。
また、エージェントがアクションを選択した後、実際のコンテキストを観察するケースも検討する。
この設定のために,追加情報を利用してより厳格な後悔の結束を達成するための修正アルゴリズムを提案する。
最後にアルゴリズムの性能を検証し,合成データと実世界のmovielensデータセットの広範なシミュレーションを用いて,他のベースライン手法と比較した。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Scalable Decentralized Algorithms for Online Personalized Mean Estimation [12.002609934938224]
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。
1つは信念の伝播からインスピレーションを得ており、もう1つはコンセンサスに基づくアプローチを採用している。
論文 参考訳(メタデータ) (2024-02-20T08:30:46Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints [0.0]
本稿では,分散上信頼度境界(UCB)アルゴリズム,関連UCBを提案する。
提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。
合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。
論文 参考訳(メタデータ) (2024-01-21T18:43:55Z) - Distributed Consensus Algorithm for Decision-Making in Multi-agent
Multi-armed Bandit [7.708904950194129]
動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。
グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。
目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。
論文 参考訳(メタデータ) (2023-06-09T16:10:26Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time
Reinforcement Learning [39.07307690074323]
本研究では,連続した環境下で対話するエージェントによって得られるリターンの分布を予測することの問題点を考察する。
正確なリターン予測は、リスクに敏感な制御、状態表現、マルチエージェント調整などのための最適なポリシーを決定するのに有用であることが証明されている。
本稿では、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T16:33:54Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。