Fugu-MT 論文翻訳(概要): Federated Natural Policy Gradient Methods for Multi-task Reinforcement Learning

論文の概要: Federated Natural Policy Gradient Methods for Multi-task Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.00201v1
Date: Wed, 1 Nov 2023 00:15:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 15:36:57.916026
Title: Federated Natural Policy Gradient Methods for Multi-task Reinforcement Learning
Title（参考訳）: マルチタスク強化学習のための連携型自然政策勾配法
Authors: Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi
Abstract要約: フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
参考スコア（独自算出の注目度）: 49.65958529941962
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Federated reinforcement learning (RL) enables collaborative decision making of multiple distributed agents without sharing local data trajectories. In this work, we consider a multi-task setting, in which each agent has its own private reward function corresponding to different tasks, while sharing the same transition kernel of the environment. Focusing on infinite-horizon tabular Markov decision processes, the goal is to learn a globally optimal policy that maximizes the sum of the discounted total rewards of all the agents in a decentralized manner, where each agent only communicates with its neighbors over some prescribed graph topology. We develop federated vanilla and entropy-regularized natural policy gradient (NPG) methods under softmax parameterization, where gradient tracking is applied to the global Q-function to mitigate the impact of imperfect information sharing. We establish non-asymptotic global convergence guarantees under exact policy evaluation, which are nearly independent of the size of the state-action space and illuminate the impacts of network size and connectivity. To the best of our knowledge, this is the first time that global convergence is established for federated multi-task RL using policy optimization. Moreover, the convergence behavior of the proposed algorithms is robust against inexactness of policy evaluation.
Abstract（参考訳）: フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。無限水平タブ状マルコフ決定プロセスに着目して、各エージェントが所定のグラフトポロジー上で隣人とのみ通信する分散的な方法で、すべてのエージェントの割引された全報酬の合計を最大化する、グローバルに最適なポリシーを学ぶことが目的である。我々は,グローバルQ-関数に勾配追跡を適用し,不完全な情報共有の影響を軽減するために,フェデレーションバニラとエントロピー規則化自然政策勾配法(NPG)を開発した。我々は,国家行動空間の大きさにほぼ依存せず,ネットワークサイズと接続性の影響を照明する,正確な政策評価の下で,非漸近的グローバル収束を保証する。我々の知る限りでは、政策最適化を用いた多タスクRLの国際収束が確立されたのはこれが初めてである。さらに,提案アルゴリズムの収束挙動は,政策評価の不正確性に対して頑健である。

関連論文リスト

Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文参考訳（メタデータ） (2024-11-02T05:49:14Z)
Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文参考訳（メタデータ） (2024-09-09T02:59:17Z)
Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning [13.908826484332282]
マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
論文参考訳（メタデータ） (2024-05-03T19:43:30Z)
Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文参考訳（メタデータ） (2024-01-27T02:43:45Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Global Convergence of Localized Policy Iteration in Networked Multi-Agent Reinforcement Learning [25.747559058350557]
エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
論文参考訳（メタデータ） (2022-11-30T15:58:00Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Dimension-Free Rates for Natural Policy Gradient in Multi-Agent Reinforcement Learning [22.310861786709538]
協調型マルチエージェント強化学習のためのスケーラブルなアルゴリズムを提案する。このアルゴリズムは,次元自由な統計量と計算量とで,グローバルな最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2021-09-23T23:38:15Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。