論文の概要: Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2311.00201v1
- Date: Wed, 1 Nov 2023 00:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:36:57.916026
- Title: Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning
- Title(参考訳): マルチタスク強化学習のための連携型自然政策勾配法
- Authors: Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi
- Abstract要約: フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
- 参考スコア(独自算出の注目度): 49.65958529941962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated reinforcement learning (RL) enables collaborative decision making
of multiple distributed agents without sharing local data trajectories. In this
work, we consider a multi-task setting, in which each agent has its own private
reward function corresponding to different tasks, while sharing the same
transition kernel of the environment. Focusing on infinite-horizon tabular
Markov decision processes, the goal is to learn a globally optimal policy that
maximizes the sum of the discounted total rewards of all the agents in a
decentralized manner, where each agent only communicates with its neighbors
over some prescribed graph topology. We develop federated vanilla and
entropy-regularized natural policy gradient (NPG) methods under softmax
parameterization, where gradient tracking is applied to the global Q-function
to mitigate the impact of imperfect information sharing. We establish
non-asymptotic global convergence guarantees under exact policy evaluation,
which are nearly independent of the size of the state-action space and
illuminate the impacts of network size and connectivity. To the best of our
knowledge, this is the first time that global convergence is established for
federated multi-task RL using policy optimization. Moreover, the convergence
behavior of the proposed algorithms is robust against inexactness of policy
evaluation.
- Abstract(参考訳): フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
無限水平タブ状マルコフ決定プロセスに着目して、各エージェントが所定のグラフトポロジー上で隣人とのみ通信する分散的な方法で、すべてのエージェントの割引された全報酬の合計を最大化する、グローバルに最適なポリシーを学ぶことが目的である。
我々は,グローバルQ-関数に勾配追跡を適用し,不完全な情報共有の影響を軽減するために,フェデレーションバニラとエントロピー規則化自然政策勾配法(NPG)を開発した。
我々は,国家行動空間の大きさにほぼ依存せず,ネットワークサイズと接続性の影響を照明する,正確な政策評価の下で,非漸近的グローバル収束を保証する。
我々の知る限りでは、政策最適化を用いた多タスクRLの国際収束が確立されたのはこれが初めてである。
さらに,提案アルゴリズムの収束挙動は,政策評価の不正確性に対して頑健である。
関連論文リスト
- Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning [25.747559058350557]
エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
論文 参考訳(メタデータ) (2022-11-30T15:58:00Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Distributed Policy Gradient with Variance Reduction in Multi-Agent
Reinforcement Learning [7.4447396913959185]
本稿では,協調型マルチエージェント強化学習(MARL)における分散ポリシ勾配について検討する。
通信ネットワーク上のエージェントは、すべてのエージェントのローカルリターンの平均を最大化するための最適なポリシーを見つけることを目的としている。
論文 参考訳(メタデータ) (2021-11-25T08:07:30Z) - Dimension-Free Rates for Natural Policy Gradient in Multi-Agent
Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。
このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2021-09-23T23:38:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。