論文の概要: Fully Distributed Actor-Critic Architecture for Multitask Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.12306v1
- Date: Sat, 23 Oct 2021 21:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:49:03.822362
- Title: Fully Distributed Actor-Critic Architecture for Multitask Deep
Reinforcement Learning
- Title(参考訳): マルチタスク深層強化学習のための完全分散アクタクリティカルアーキテクチャ
- Authors: Sergio Valcarcel Macua, Ian Davies, Aleksi Tukiainen, Enrique Munoz de
Cote
- Abstract要約: マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。
エージェントは、その価値とポリシーのパラメータを隣人に伝達し、中央局を必要とせずにエージェントのネットワークに情報を拡散する。
我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。
- 参考スコア(独自算出の注目度): 6.628062414583634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a fully distributed actor-critic architecture, named Diff-DAC,
with application to multitask reinforcement learning (MRL). During the learning
process, agents communicate their value and policy parameters to their
neighbours, diffusing the information across a network of agents with no need
for a central station. Each agent can only access data from its local task, but
aims to learn a common policy that performs well for the whole set of tasks.
The architecture is scalable, since the computational and communication cost
per agent depends on the number of neighbours rather than the overall number of
agents. We derive Diff-DAC from duality theory and provide novel insights into
the actor-critic framework, showing that it is actually an instance of the dual
ascent method. We prove almost sure convergence of Diff-DAC to a common policy
under general assumptions that hold even for deep-neural network
approximations. For more restrictive assumptions, we also prove that this
common policy is a stationary point of an approximation of the original
problem. Numerical results on multitask extensions of common continuous control
benchmarks demonstrate that Diff-DAC stabilises learning and has a regularising
effect that induces higher performance and better generalisation properties
than previous architectures.
- Abstract(参考訳): マルチタスク強化学習(MRL)に応用したDiff-DACという,完全に分散したアクタ批判型アーキテクチャを提案する。
学習プロセスの間、エージェントは自分の価値とポリシーパラメータを隣人に伝え、中央のステーションを必要とせずにエージェントのネットワークを通して情報を拡散する。
各エージェントは、ローカルタスクからのみデータにアクセスすることができるが、タスクの集合全体に対してうまく機能する共通のポリシーを学ぶことを目指している。
エージェントごとの計算コストと通信コストはエージェントの全体数ではなく近隣の数に依存するため、アーキテクチャはスケーラブルである。
我々はDiff-DACを双対性理論から導出し、アクター・クリティック・フレームワークに新たな洞察を与え、実際に双対性上昇法の例であることを示す。
我々は,Diff-DACの一般仮定の下での共通ポリシーへの収束性をほぼ確実に証明する。
より制限的な仮定については、この共通政策が元の問題の近似の静止点であることも証明する。
共通連続制御ベンチマークのマルチタスク拡張に関する数値的な結果は、Diff-DACが学習を安定化し、従来のアーキテクチャよりも高い性能とより優れた一般化特性をもたらす正規化効果を有することを示している。
関連論文リスト
- On the Linear Speedup of Personalized Federated Reinforcement Learning with Shared Representations [15.549340968605234]
フェデレート強化学習(FedRL)は、エージェントと環境相互作用の間に収集された局所的な軌跡を共有することなく、複数のエージェントが協調的にポリシーを学ぶことを可能にする。
異種環境におけるエージェント間の共通構造を生かし, 共生型FedRLフレームワーク(PFedRL)を導入する。
論文 参考訳(メタデータ) (2024-11-22T15:42:43Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Federated Stochastic Approximation under Markov Noise and Heterogeneity: Applications in Reinforcement Learning [24.567125948995834]
フェデレーション強化学習は、N$エージェントが協力してグローバルモデルを学ぶためのフレームワークである。
この連立固定点問題の解法において, エージェントの綿密な協調によって, グローバルモデルのN$倍の高速化が期待できることを示す。
論文 参考訳(メタデータ) (2022-06-21T08:39:12Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。