論文の概要: Decentralized Learning Dynamics in the Gossip Model
- arxiv url: http://arxiv.org/abs/2306.08670v1
- Date: Wed, 14 Jun 2023 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:52:40.286948
- Title: Decentralized Learning Dynamics in the Gossip Model
- Title(参考訳): Gossipモデルにおける分散学習ダイナミクス
- Authors: John Lazarsfeld, Dan Alistarh
- Abstract要約: ゴシップモデルにおけるメモリ制限ノードの分散マルチアーム帯域設定について検討した。
我々は、これらの分散力学のグローバル進化と、ある種の「ゼロサム」乗算重み更新アルゴリズムとの関連性を示す。
- 参考スコア(独自算出の注目度): 27.761221746022365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a distributed multi-armed bandit setting among a population of $n$
memory-constrained nodes in the gossip model: at each round, every node locally
adopts one of $m$ arms, observes a reward drawn from the arm's (adversarially
chosen) distribution, and then communicates with a randomly sampled neighbor,
exchanging information to determine its policy in the next round. We introduce
and analyze several families of dynamics for this task that are decentralized:
each node's decision is entirely local and depends only on its most recently
obtained reward and that of the neighbor it sampled. We show a connection
between the global evolution of these decentralized dynamics with a certain
class of "zero-sum" multiplicative weight update algorithms, and we develop a
general framework for analyzing the population-level regret of these natural
protocols. Using this framework, we derive sublinear regret bounds under a wide
range of parameter regimes (i.e., the size of the population and number of
arms) for both the stationary reward setting (where the mean of each arm's
distribution is fixed over time) and the adversarial reward setting (where
means can vary over time). Further, we show that these protocols can
approximately optimize convex functions over the simplex when the reward
distributions are generated from a stochastic gradient oracle.
- Abstract(参考訳): 我々は,ゴシップモデルにおけるメモリ制限ノード数$n$の分散マルチアームバンディットについて検討し,各ラウンドにおいて各ノードが$m$のアームの1つを局所的に採用し,アームの分布から引き出された報酬を観測し,次にランダムにサンプリングされた隣人と通信し,次のラウンドでその方針を決定する。
各ノードの決定は完全にローカルであり、最近取得した報酬とサンプルした隣接ノードのみに依存する。
我々は,これらの分散ダイナミクスのグローバル進化と,ある種の「ゼロサム」乗算重み更新アルゴリズムとの関係を示し,これらの自然プロトコルの集団レベルの後悔を分析するための汎用フレームワークを開発した。
この枠組みを用いて、固定的な報酬設定(各腕の分布の平均が時間とともに固定される)と敵対的な報酬設定(時間とともに変化しうる手段)について、幅広いパラメータ規則(すなわち、人口と武器の数)の下でサブ線形後悔境界を導出する。
さらに,これらのプロトコルは,確率的勾配 oracle から報酬分布が生成される場合に,simplex 上の凸関数を近似的に最適化できることを示した。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback [38.61232011566285]
本稿では,最近提案されたRLモデルとアグリゲート帯域フィードバック(RL-ABF)について検討する。
本稿では,ABFを線形関数近似に拡張し,ほぼ最適後悔保証を伴う2つの効率的なアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-05-13T10:51:01Z) - Improved Sample Complexity for Reward-free Reinforcement Learning under
Low-rank MDPs [43.53286390357673]
本稿では,低ランクMDPモデルによる報酬なし強化学習に焦点を当てた。
我々はまず、低ランクのMDPの下での任意のアルゴリズムに対して、最初の既知のサンプル複雑性の低い境界を提供する。
次に、RAFFLEと呼ばれる新しいモデルベースアルゴリズムを提案し、$epsilon$-optimal Policyを見つけ、$epsilon$-accurate system IDを実現できることを示す。
論文 参考訳(メタデータ) (2023-03-20T04:39:39Z) - On the Sample Complexity of Representation Learning in Multi-task
Bandits with Global and Local structure [77.60508571062958]
マルチタスク・バンディット問題に対する最適アーム学習の複雑さについて検討した。
アームは2つのコンポーネントで構成されます。1つはタスク間で共有され(表現と呼ばれます)、もう1つはタスク固有のもの(予測器と呼ばれます)です。
サンプルの複雑さが下界に近づき、最大で$H(Glog(delta_G)+ Xlog(delta_H))$でスケールするアルゴリズムOSRL-SCを考案する。
論文 参考訳(メタデータ) (2022-11-28T08:40:12Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z) - The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret
and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。
一般関数クラスと一般モデルクラスで学ぶことに集中する。
対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-03T02:55:55Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations [102.32996053572144]
我々は,各ラウンドの開始時に,学習者が各アームの真の報酬について,ノイズのない独立した評価を受けるマルチアームバンディット・セッティングを考える。
評価の方法によって異なるアルゴリズムアプローチと理論的保証を導出する。
論文 参考訳(メタデータ) (2021-12-13T09:48:54Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。