論文の概要: Federated Q-Learning with Reference-Advantage Decomposition: Almost Optimal Regret and Logarithmic Communication Cost
- arxiv url: http://arxiv.org/abs/2405.18795v1
- Date: Wed, 29 May 2024 06:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:38:40.060631
- Title: Federated Q-Learning with Reference-Advantage Decomposition: Almost Optimal Regret and Logarithmic Communication Cost
- Title(参考訳): 参照アドバンテージ分解によるフェデレーションQ-Learning: ほぼ最適回帰と対数通信コスト
- Authors: Zhong Zheng, Haochen Zhang, Lingzhou Xue,
- Abstract要約: 本稿では,FedQ-Advantageと呼ばれる新しいモデルフリーなフェデレーションQ-ラーニングアルゴリズムを提案する。
我々のアルゴリズムは対数通信コストを低くするだけでなく、時間的地平線が十分に大きい場合と比較して、対数係数に縛られた情報とほぼ直線的後悔のスピードアップに到達して、ほぼ最適の後悔を達成する。
- 参考スコア(独自算出の注目度): 4.895986534376972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider model-free federated reinforcement learning for tabular episodic Markov decision processes. Under the coordination of a central server, multiple agents collaboratively explore the environment and learn an optimal policy without sharing their raw data. Despite recent advances in federated Q-learning algorithms achieving near-linear regret speedup with low communication cost, existing algorithms only attain suboptimal regrets compared to the information bound. We propose a novel model-free federated Q-learning algorithm, termed FedQ-Advantage. Our algorithm leverages reference-advantage decomposition for variance reduction and operates under two distinct mechanisms: synchronization between the agents and the server, and policy update, both triggered by events. We prove that our algorithm not only requires a lower logarithmic communication cost but also achieves an almost optimal regret, reaching the information bound up to a logarithmic factor and near-linear regret speedup compared to its single-agent counterpart when the time horizon is sufficiently large.
- Abstract(参考訳): 本稿では,表在的マルコフ決定過程におけるモデル自由連合強化学習について考察する。
中央サーバの協調の下で、複数のエージェントが協調して環境を探索し、生データを共有せずに最適なポリシーを学ぶ。
フェデレートされたQ-ラーニングアルゴリズムの最近の進歩は、通信コストの低いほぼ直線的後悔のスピードアップを実現しているにもかかわらず、既存のアルゴリズムは情報バウンドよりも過度な後悔しか達成していない。
本稿では,FedQ-Advantageと呼ばれる新しいモデルフリーなフェデレーションQ-ラーニングアルゴリズムを提案する。
提案アルゴリズムは,分散低減のための参照アドバンテージ分解を利用して,エージェントとサーバ間の同期と,イベントによって引き起こされるポリシー更新という,2つの異なるメカニズムの下で動作する。
本アルゴリズムは対数通信コストの低減だけでなく,時間的地平線が十分に大きい場合と比較して,対数係数とほぼ直線的後悔速度に制限された情報に到達し,ほぼ最適に後悔することを示す。
関連論文リスト
- The Sample-Communication Complexity Trade-off in Federated Q-Learning [31.644851830271755]
広範に使われている間欠的通信アルゴリズムにおけるサンプルと通信複雑性のトレードオフについて検討する。
我々は、注文最適サンプルと通信の複雑さを同時に達成する最初のフェデレーションQ-ラーニングアルゴリズムであるFed-DVR-Qを提案する。
論文 参考訳(メタデータ) (2024-08-30T03:03:03Z) - Lower Bounds and Optimal Algorithms for Non-Smooth Convex Decentralized Optimization over Time-Varying Networks [57.24087627267086]
通信ネットワークのノード間で分散的に格納された凸関数の総和を最小化するタスクについて検討する。
この問題を解決するのに必要な分散通信数と(サブ)漸進計算の下位境界が確立されている。
我々は,これらの下界に適合する最初の最適アルゴリズムを開発し,既存の最先端技術と比較して理論性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-28T10:28:45Z) - Federated Q-Learning: Linear Regret Speedup with Low Communication Cost [4.380110270510058]
本稿では,FedQ-HoeffdingとFedQ-Bernsteinという2つの連合Qラーニングアルゴリズムを提案する。
時間的地平線が十分に大きい場合, 対応する全後悔は, 単エージェントと比較して直線的なスピードアップを達成することを示す。
これらの結果は、エージェントとサーバ間のイベントトリガー同期機構に依存します。
論文 参考訳(メタデータ) (2023-12-22T19:14:09Z) - Serverless Federated AUPRC Optimization for Multi-Party Collaborative
Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。
サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。
本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-06T06:51:32Z) - Finite-Time Consensus Learning for Decentralized Optimization with
Nonlinear Gossiping [77.53019031244908]
本稿では,非線形ゴシップ(NGO)に基づく分散学習フレームワークを提案する。
コミュニケーション遅延とランダム化チャットが学習にどう影響するかを解析することで,実践的なバリエーションの導出が可能となる。
論文 参考訳(メタデータ) (2021-11-04T15:36:25Z) - Resource-constrained Federated Edge Learning with Heterogeneous Data:
Formulation and Analysis [8.863089484787835]
ヘテロジニアスデータによる不均一な統計的課題を解決するために, 分散されたニュートン型ニュートン型トレーニングスキームであるFedOVAを提案する。
FedOVAはマルチクラス分類問題をより単純なバイナリ分類問題に分解し、アンサンブル学習を用いてそれぞれの出力を結合する。
論文 参考訳(メタデータ) (2021-10-14T17:35:24Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Decentralized Statistical Inference with Unrolled Graph Neural Networks [26.025935320024665]
分散最適化アルゴリズムをグラフニューラルネットワーク(GNN)にアンロールする学習ベースフレームワークを提案する。
エンドツーエンドトレーニングによるリカバリエラーを最小限にすることで、この学習ベースのフレームワークは、モデルのミスマッチ問題を解決する。
コンバージェンス解析により,学習したモデルパラメータがコンバージェンスを加速し,リカバリエラーを広範囲に低減できることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-04T07:52:34Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。