Fugu-MT 論文翻訳(概要): Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning

論文の概要: Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.10185v2
Date: Mon, 21 Oct 2024 07:30:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.336011
Title: Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning
Title（参考訳）: マルコフ雑音と不均一性を考慮した確率的フェデレーション:強化学習への応用
Authors: Sajad Khodadadian, Pranay Sharma, Gauri Joshi, Siva Theja Maguluri,
Abstract要約: フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
参考スコア（独自算出の注目度）: 24.567125948995834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Since reinforcement learning algorithms are notoriously data-intensive, the task of sampling observations from the environment is usually split across multiple agents. However, transferring these observations from the agents to a central location can be prohibitively expensive in terms of communication cost, and it can also compromise the privacy of each agent's local behavior policy. Federated reinforcement learning is a framework in which $N$ agents collaboratively learn a global model, without sharing their individual data and policies. This global model is the unique fixed point of the average of $N$ local operators, corresponding to the $N$ agents. Each agent maintains a local copy of the global model and updates it using locally sampled data. In this paper, we show that by careful collaboration of the agents in solving this joint fixed point problem, we can find the global model $N$ times faster, also known as linear speedup. We first propose a general framework for federated stochastic approximation with Markovian noise and heterogeneity, showing linear speedup in convergence. We then apply this framework to federated reinforcement learning algorithms, examining the convergence of federated on-policy TD, off-policy TD, and $Q$-learning.
Abstract（参考訳）: 強化学習アルゴリズムはデータ集約性が高いことで知られているため、環境からの観測をサンプリングする作業は通常、複数のエージェントに分割される。しかし、これらの観察をエージェントから中央の場所に移すことは、通信コストの観点からは違法にコストがかかり、また各エージェントのローカルな行動ポリシーのプライバシーを侵害する可能性がある。フェデレーション強化学習(Federated reinforcement learning)は、N$エージェントが、個々のデータやポリシーを共有することなく、グローバルモデルを共同で学習するフレームワークである。このグローバルモデルは、$N$エージェントに対応する平均$N$ローカル演算子のユニークな固定点である。各エージェントはグローバルモデルのローカルコピーを保持し、ローカルサンプルデータを使用して更新する。本稿では,この連立固定点問題の解法において,エージェントの注意深い協調により,大域的モデルがN$倍高速であること,線形スピードアップ(lineline speedup)としても知られていることを明らかにする。まず,マルコフ雑音と不均一性を考慮した連立確率近似の一般フレームワークを提案し,収束の線形高速化を示す。次に,この枠組みを連携型強化学習アルゴリズムに適用し,連携型オンラインTD,非政治型TD,およびQ$ラーニングの収束性を検討する。

関連論文リスト

Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling [6.549288471493216]
我々は,M$エージェントを含む汎用的な近似問題について検討した。目標は、エージェントがサーバを介して断続的に通信し、エージェントのローカルオペレータの平均のルートを見つけることである。我々はtexttFedHSA という名の新しいアルゴリズムを開発し、正しい点への収束を保証することを証明した。
論文参考訳（メタデータ） (2025-04-15T22:13:55Z)
Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。 $mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。 $mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文参考訳（メタデータ） (2024-06-18T15:26:54Z)
FedLPA: One-shot Federated Learning with Layer-Wise Posterior Aggregation [7.052566906745796]
FedLPAは、フェデレートラーニングのための階層的な後続アグリゲーション手法である。以上の結果から,FedLPAは最先端の手法よりも学習性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-09-30T10:51:27Z)
Rethinking Client Drift in Federated Learning: A Logit Perspective [125.35844582366441]
フェデレートラーニング(FL)は、複数のクライアントが分散した方法で協調的に学習し、プライバシ保護を可能にする。その結果,局所モデルとグローバルモデルとのロジット差は,モデルが継続的に更新されるにつれて増大することがわかった。我々はFedCSDと呼ばれる新しいアルゴリズムを提案する。FedCSDは、ローカルモデルとグローバルモデルを調整するためのフェデレーションフレームワークにおけるクラスプロトタイプの類似度蒸留である。
論文参考訳（メタデータ） (2023-08-20T04:41:01Z)
On the Convergence of Heterogeneous Federated Learning with Arbitrary Adaptive Online Model Pruning [15.300983585090794]
任意適応型オンラインモデルプルーニングを用いた異種FLアルゴリズムの一元化フレームワークを提案する。特に、ある十分な条件下では、これらのアルゴリズムは一般的なスムーズなコスト関数に対して標準FLの定常点に収束する。コンバージェンスに影響を与える2つの要因として,プルーニング誘導雑音と最小カバレッジ指数を照らす。
論文参考訳（メタデータ） (2022-01-27T20:43:38Z)
Convergence Rates of Average-Reward Multi-agent Reinforcement Learning via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文参考訳（メタデータ） (2021-10-22T03:48:41Z)
Dimension-Free Rates for Natural Policy Gradient in Multi-Agent Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2021-09-23T23:38:15Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文参考訳（メタデータ） (2021-03-08T21:48:55Z)
Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文参考訳（メタデータ） (2021-02-14T05:36:25Z)
Multi-Agent Reinforcement Learning in Stochastic Networked Systems [30.78949372661673]
エージェントネットワークにおけるマルチエージェント強化学習(MARL)について検討する。目的は、世界的報酬を最大化する局所的な政策を見つけることである。
論文参考訳（メタデータ） (2020-06-11T16:08:16Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。