論文の概要: The Power of Populations in Decentralized Bandits
- arxiv url: http://arxiv.org/abs/2306.08670v3
- Date: Thu, 1 Feb 2024 18:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:38:20.020725
- Title: The Power of Populations in Decentralized Bandits
- Title(参考訳): 分散バンディットにおける人口の力
- Authors: John Lazarsfeld, Dan Alistarh
- Abstract要約: 分散GOSSIPモデルにおける協調的マルチエージェントバンディット設定について検討する。
各ラウンドにおいて、各$n$エージェントは共通の集合からアクションを選択し、アクションの対応する報酬を観察し、次にランダムに選択された1つの隣人と情報を交換する。
この設定では,各エージェントが一定メモリしか持たないという制約の下で,完全分散ローカルアルゴリズムのいくつかのファミリを導入・解析する。
- 参考スコア(独自算出の注目度): 45.6131675239826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a cooperative multi-agent bandit setting in the distributed GOSSIP
model: in every round, each of $n$ agents chooses an action from a common set,
observes the action's corresponding reward, and subsequently exchanges
information with a single randomly chosen neighbor, which informs its policy in
the next round. We introduce and analyze several families of
fully-decentralized local algorithms in this setting under the constraint that
each agent has only constant memory. We highlight a connection between the
global evolution of such decentralized algorithms and a new class of "zero-sum"
multiplicative weights update methods, and we develop a general framework for
analyzing the population-level regret of these natural protocols. Using this
framework, we derive sublinear regret bounds for both stationary and
adversarial reward settings. Moreover, we show that these simple local
algorithms can approximately optimize convex functions over the simplex,
assuming that the reward distributions are generated from a stochastic gradient
oracle.
- Abstract(参考訳): 分散GOSSIPモデルにおける協調的マルチエージェントバンディット設定について検討し、各ラウンドにおいて、$n$エージェントが共通の集合からアクションを選択し、対応する報酬を観察し、次にランダムに選択された隣人と情報を交換し、次のラウンドでそのポリシーを通知する。
この設定では,各エージェントが一定メモリしか持たないという制約の下で,完全分散ローカルアルゴリズムのいくつかのファミリを導入・解析する。
我々は,このような分散アルゴリズムのグローバル進化と「ゼロサム」乗算重み更新手法の新たなクラスとの関係に注目し,これらの自然プロトコルの集団レベルの後悔を分析するための汎用フレームワークを開発した。
この枠組みを用いて、定常的および対向的な報酬設定のサブ線形後悔境界を導出する。
さらに,これらの単純局所アルゴリズムは,確率的勾配 oracle から報奨分布が生成されることを仮定して,simplex 上の凸関数を近似的に最適化できることを示した。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - Improved Sample Complexity for Reward-free Reinforcement Learning under
Low-rank MDPs [43.53286390357673]
本稿では,低ランクMDPモデルによる報酬なし強化学習に焦点を当てた。
我々はまず、低ランクのMDPの下での任意のアルゴリズムに対して、最初の既知のサンプル複雑性の低い境界を提供する。
次に、RAFFLEと呼ばれる新しいモデルベースアルゴリズムを提案し、$epsilon$-optimal Policyを見つけ、$epsilon$-accurate system IDを実現できることを示す。
論文 参考訳(メタデータ) (2023-03-20T04:39:39Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。