論文の概要: Parameter-Free Federated TD Learning with Markov Noise in Heterogeneous Environments
- arxiv url: http://arxiv.org/abs/2510.07436v1
- Date: Wed, 08 Oct 2025 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.667392
- Title: Parameter-Free Federated TD Learning with Markov Noise in Heterogeneous Environments
- Title(参考訳): 不均質環境におけるマルコフ雑音を考慮したパラメータフリーフェデレーションTD学習
- Authors: Ankur Naskar, Gugan Thoppe, Utsav Negi, Vijay Gupta,
- Abstract要約: フェデレートラーニング(FL)は、複数のエージェントをまたいだ探索と訓練を分散することにより、強化学習を劇的に高速化することができる。
この速度を達成するために既存のTD学習結果には、未知の問題パラメータに依存するアルゴリズムが必要である。
本稿では,Polyak-Ruppert平均化を用いた2段階のフェデレーション時間差学習を提案する。
- 参考スコア(独自算出の注目度): 3.4165401459803335
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Federated learning (FL) can dramatically speed up reinforcement learning by distributing exploration and training across multiple agents. It can guarantee an optimal convergence rate that scales linearly in the number of agents, i.e., a rate of $\tilde{O}(1/(NT)),$ where $T$ is the iteration index and $N$ is the number of agents. However, when the training samples arise from a Markov chain, existing results on TD learning achieving this rate require the algorithm to depend on unknown problem parameters. We close this gap by proposing a two-timescale Federated Temporal Difference (FTD) learning with Polyak-Ruppert averaging. Our method provably attains the optimal $\tilde{O}(1/NT)$ rate in both average-reward and discounted settings--offering a parameter-free FTD approach for Markovian data. Although our results are novel even in the single-agent setting, they apply to the more realistic and challenging scenario of FL with heterogeneous environments.
- Abstract(参考訳): フェデレートラーニング(FL)は、複数のエージェントをまたいだ探索と訓練を分散することにより、強化学習を劇的に高速化することができる。
これは、エージェント数で線形にスケールする最適な収束率、すなわち$\tilde{O}(1/(NT))、$$T$が反復指数、$N$がエージェント数を保証する。
しかしながら、トレーニングサンプルがマルコフ連鎖から生じる場合、このレートを達成するために既存のTD学習結果には、未知の問題パラメータに依存するアルゴリズムが必要である。
このギャップは、Polyak-Ruppert平均化を用いた2段階のFederated Temporal difference (FTD)学習を提案することで解決する。
提案手法は,パラメータフリーなFTD手法をマルコフデータに適用し,平均回帰と割引設定の両方で最適な$\tilde{O}(1/NT)$レートを確実に達成する。
この結果は, 単エージェント環境においても新規であるが, 不均一環境下でのFLのより現実的で挑戦的なシナリオに適用できる。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling [18.437456273777407]
政策評価の一般的な手法であるTD($lambda$)の線形高速化は、$N$エージェントが政策の$N$倍の速度で評価できるという意味で達成できることを示す。
これは、エージェントがTD($lambda$)を実行し、Markovが独立してサンプリングし、最終ステップ後にのみ結果を平均する手順である。
論文 参考訳(メタデータ) (2024-03-13T18:37:16Z) - On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks [13.2844023993979]
フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調的に作成するための分散パラダイムである。
本稿では,FedAvgが世界規模で世界規模で収束していることを示す。
論文 参考訳(メタデータ) (2023-10-09T07:56:56Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。