論文の概要: Convergence Guarantees for Federated SARSA with Local Training and Heterogeneous Agents
- arxiv url: http://arxiv.org/abs/2512.17688v1
- Date: Fri, 19 Dec 2025 15:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.460877
- Title: Convergence Guarantees for Federated SARSA with Local Training and Heterogeneous Agents
- Title(参考訳): 局所訓練・異種剤併用SARSAの収束保証
- Authors: Paul Mangold, Eloïse Berthier, Eric Moulines,
- Abstract要約: 線形関数近似と局所訓練を併用したフェデレートSARSA(FedSARSA)の理論的解析を行った。
我々は、FedSARSAが局所的な遷移と報酬の両方において不均一性が存在する場合の収束保証を確立する。
我々は,FedSARSAがエージェント数に関して,マルコフサンプリングによる高次項までの線形高速化を実現することを示す。
- 参考スコア(独自算出の注目度): 25.68297036299815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel theoretical analysis of Federated SARSA (FedSARSA) with linear function approximation and local training. We establish convergence guarantees for FedSARSA in the presence of heterogeneity, both in local transitions and rewards, providing the first sample and communication complexity bounds in this setting. At the core of our analysis is a new, exact multi-step error expansion for single-agent SARSA, which is of independent interest. Our analysis precisely quantifies the impact of heterogeneity, demonstrating the convergence of FedSARSA with multiple local updates. Crucially, we show that FedSARSA achieves linear speed-up with respect to the number of agents, up to higher-order terms due to Markovian sampling. Numerical experiments support our theoretical findings.
- Abstract(参考訳): 線形関数近似と局所訓練を併用したフェデレートSARSA(FedSARSA)の理論的解析を行った。
我々は,FedSARSAの局所的遷移と報酬の両方において不均一性の存在下での収束保証を確立し,この設定において最初のサンプルおよび通信複雑性を限定する。
我々の分析の核心は、独立した関心を持つ単エージェントSARSAに対する、新しい、正確なマルチステップエラー拡張である。
本分析は,FedSARSAの収束度を複数の局所的更新で示すことによって,不均一性の影響を正確に定量化する。
重要なことに,FedSARSAは,マルコフサンプリングによる高次項までのエージェント数に関して,線形スピードアップを実現している。
数値実験は理論的な結果を裏付ける。
関連論文リスト
- Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling [6.549288471493216]
我々は,M$エージェントを含む汎用的な近似問題について検討した。
目標は、エージェントがサーバを介して断続的に通信し、エージェントのローカルオペレータの平均のルートを見つけることである。
我々はtexttFedHSA という名の新しいアルゴリズムを開発し、正しい点への収束を保証することを証明した。
論文 参考訳(メタデータ) (2025-04-15T22:13:55Z) - Single-Loop Federated Actor-Critic across Heterogeneous Environments [9.276123988094698]
エージェントが2段階のフェデレート方式でアクター・クリティカル・ラーニングを行うためのテキストサイトSingle-loop Federated Actor Critic (SFAC) について検討する。
SFACの収束誤差は環境に比例してほぼ定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-12-19T06:13:59Z) - Broadening Target Distributions for Accelerated Diffusion Models via a Novel Analysis Approach [49.97755400231656]
本研究では,新しいDDPMサンプリング器が,これまで考慮されていなかった3種類の分散クラスに対して高速化性能を実現することを示す。
この結果から, DDPM型加速サンプリング器におけるデータ次元$d$への依存性が改善された。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - SCAFFLSA: Taming Heterogeneity in Federated Linear Stochastic Approximation and TD Learning [14.663513734368628]
我々は,FedLSAの通信複雑性が,所望の精度の逆でスケールすることを示した。
重要な発見は、Scaffnewの既存の結果と比較して、サンプルの複雑さはエージェント数の逆でスケールするということである。
論文 参考訳(メタデータ) (2024-02-06T16:06:59Z) - Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Revisiting the Sample Complexity of Sparse Spectrum Approximation of
Gaussian Processes [60.479499225746295]
本稿では,ガウス過程に対して,パラメータ空間全体に対して同時に保持可能な保証付きスケーラブルな近似を導入する。
我々の近似は、スパーススペクトルガウス過程(SSGP)のための改良されたサンプル複雑性解析から得られる。
論文 参考訳(メタデータ) (2020-11-17T05:41:50Z) - A Unified Linear Speedup Analysis of Federated Averaging and Nesterov
FedAvg [49.76940694847521]
フェデレーションラーニング(FL)は、互いにプライベートに保持されたデータを共有せずに、参加する一連のデバイスからモデルを共同で学習する。
本稿では,FedAvg(Federated Averaging, FedAvg)に焦点をあてる。
また,FedAvgは収束率や通信効率が異なるが,各ケースで線形スピードアップを享受していることを示す。
論文 参考訳(メタデータ) (2020-07-11T05:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。