論文の概要: Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic
- arxiv url: http://arxiv.org/abs/2605.14423v1
- Date: Thu, 14 May 2026 06:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.656298
- Title: Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic
- Title(参考訳): 協力的かつパーソナライズされた政策トレーニング:シングルタイムスケールフェデレーションアクター批判
- Authors: Leo Muxing Wang, Pengkun Yang, Lili Su,
- Abstract要約: エージェントが共通の線形部分空間表現を共有する,連合型アクター批判フレームワークについて考察する。
エージェントは、共通部分空間、地域批評家の頭、および地域政策(アクター)を反復的に見積もる。
批判誤差は $tildemathcalO (1/()6sqrtTK)$ で 0 に収束し、ポリシー勾配ノルムは $tildemathcalO (1/()6sqrtTK) で 0 に収束することを示す。
- 参考スコア(独自算出の注目度): 13.674509321097311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the popularity of the actor-critic method and the practical needs of collaborative policy training, existing works typically either overlook environmental heterogeneity or give up personalization altogether by training a single shared policy across all agents. We consider a federated actor-critic framework in which agents share a common linear subspace representation while maintaining personalized local policy components, and agents iteratively estimate the common subspace, local critic heads, and local policies (i.e., actors). Under canonical single-timescale updates with Markovian sampling, we establish finite-time convergence via a novel joint linear approximation framework. Specifically, we show that the critic error converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^4\sqrt{TK}))$, and the policy gradient norm converges to zero at the rate of $\tilde{\mathcal{O}}(1/((1-γ)^6\sqrt{TK}))$, where $T$ is the number of rounds, $K$ is the number of agents, and $γ\in (0,1)$ is the discount factor. These results demonstrate linear speedup with respect to the number of agents $K$, despite heterogeneous Markovian trajectories under distinct transition kernels and coupled learning dynamics. To address these challenges, we develop a new perturbation analysis for the projected subspace updates and QR decomposition steps, together with conditional mixing arguments for heterogeneous Markovian noise. Furthermore, to handle the additional complications induced by policy updates and temporal dependence, we establish fine-grained characterizations of the discrepancies between function evaluations under Markovian sampling and under temporally frozen policies. Experiments instantiate the framework within PPO on federated \texttt{Hopper-v5} action-map heterogeneity, showing gains over Single PPO and FedAvg PPO and downstream transfer from the learned shared trunk.
- Abstract(参考訳): アクター批判的手法の人気と協調政策トレーニングの実践的なニーズにもかかわらず、既存の作品は通常、環境の不均一性を見落としているか、あるいはすべてのエージェントに対して単一の共有ポリシーをトレーニングすることによって、パーソナライズを完全に放棄している。
エージェントは、個別のローカルポリシーコンポーネントを維持しながら共通の線形部分空間表現を共有し、エージェントは、共通部分空間、ローカル評論家ヘッド、ローカルポリシー(アクター)を反復的に推定する。
マルコフサンプリングを用いた標準的単一時間スケール更新では、新しい線形近似フレームワークを用いて有限時間収束を確立する。
具体的には、批判誤差は$\tilde{\mathcal{O}}(1/((1-γ)^4\sqrt{TK}))$でゼロに収束し、ポリシー勾配ノルムは$\tilde{\mathcal{O}}(1/((1-γ)^6\sqrt{TK}))$でゼロに収束する。
これらの結果は、異なる遷移カーネルと結合学習力学の下での異質なマルコフ軌道にもかかわらず、エージェント数$K$に対する線形スピードアップを示す。
これらの課題に対処するため、予測サブスペース更新とQR分解ステップのための新しい摂動解析と、異種マルコフ雑音に対する条件混合引数を開発する。
さらに, 政策更新や時間的依存によって引き起こされる追加の合併症に対処するため, マルコフサンプリングと時間的凍結ポリシの下での関数評価の相違点を微妙に把握する。
実験では、フェデレートされた \texttt{Hopper-v5} アクションマップの不均一性上でPPO内のフレームワークをインスタンス化し、Single PPO と FedAvg PPO を上回り、学習した共有トランクからの下流転送を示す。
関連論文リスト
- Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions [4.440305753099883]
我々は、強化学習における非政治アクターのための最終項目収束率を確立する。
我々は、最小限の仮定の下で$$-optimal Policyを見つけるために、最初の$tildemathcalO(-2)$サンプル複雑性を保証する。
論文 参考訳(メタデータ) (2026-05-13T15:04:59Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。
クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。
我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-05T14:16:47Z) - Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling [6.549288471493216]
我々は,M$エージェントを含む汎用的な近似問題について検討した。
目標は、エージェントがサーバを介して断続的に通信し、エージェントのローカルオペレータの平均のルートを見つけることである。
我々はtexttFedHSA という名の新しいアルゴリズムを開発し、正しい点への収束を保証することを証明した。
論文 参考訳(メタデータ) (2025-04-15T22:13:55Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity [44.2308932471393]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning [24.567125948995834]
フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。
この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
論文 参考訳(メタデータ) (2022-06-21T08:39:12Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。