論文の概要: Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.08794v1
- Date: Mon, 17 Jul 2023 19:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:40:33.226085
- Title: Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチタイムマルチエージェント強化学習のための非定常ポリシー学習
- Authors: Patrick Emami, Xiangyu Zhang, David Biagioni, Ahmed S. Zamzam
- Abstract要約: マルチタイムスケールのマルチエージェント強化学習では、エージェントは異なる時間スケールで相互作用する。
マルチスケールMARLのための非定常ポリシーを学習するための簡単なフレームワークを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
- 参考スコア(独自算出の注目度): 9.808555135836022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-timescale multi-agent reinforcement learning (MARL), agents interact
across different timescales. In general, policies for time-dependent behaviors,
such as those induced by multiple timescales, are non-stationary. Learning
non-stationary policies is challenging and typically requires sophisticated or
inefficient algorithms. Motivated by the prevalence of this control problem in
real-world complex systems, we introduce a simple framework for learning
non-stationary policies for multi-timescale MARL. Our approach uses available
information about agent timescales to define a periodic time encoding. In
detail, we theoretically demonstrate that the effects of non-stationarity
introduced by multiple timescales can be learned by a periodic multi-agent
policy. To learn such policies, we propose a policy gradient algorithm that
parameterizes the actor and critic with phase-functioned neural networks, which
provide an inductive bias for periodicity. The framework's ability to
effectively learn multi-timescale policies is validated on a gridworld and
building energy management environment.
- Abstract(参考訳): マルチタイム・マルチエージェント強化学習(MARL)では、エージェントは異なる時間スケールで相互作用する。
一般に、複数の時間スケールによって引き起こされるような時間依存行動のポリシーは定常的ではない。
非定常ポリシーの学習は困難であり、一般的に高度なアルゴリズムや非効率なアルゴリズムを必要とする。
実世界の複合システムにおけるこの制御問題の普及により,マルチスケールMARLのための非定常ポリシーを学習するためのシンプルなフレームワークを導入する。
提案手法では,エージェントの時間スケールに関する情報を用いて周期的時間エンコーディングを定義する。
理論的には、複数の時間スケールによって導入された非定常性の効果は、周期的マルチエージェントポリシーによって学習できる。
このような方針を学習するために,アクターと批判者を位相関数型ニューラルネットワークでパラメータ化し,周期性に対する帰納的バイアスを与えるポリシ勾配アルゴリズムを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
関連論文リスト
- Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文 参考訳(メタデータ) (2024-07-21T18:10:31Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Doubly Inhomogeneous Reinforcement Learning [4.334006170547247]
我々は、ポリシー学習のために、時間とともに個人間で類似したダイナミクスを表示する「最良のデータチャンクを決定するためのオリジナルアルゴリズム」を提案する。
提案手法は汎用的であり,クラスタリングおよび変更点検出アルゴリズムの幅広い範囲で動作する。
論文 参考訳(メタデータ) (2022-11-08T03:41:14Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Consolidation via Policy Information Regularization in Deep RL for
Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。
多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文 参考訳(メタデータ) (2020-11-23T16:28:27Z) - A Decentralized Policy Gradient Approach to Multi-task Reinforcement
Learning [13.733491423871383]
マルチタスク強化学習問題を解決するためのフレームワークを開発する。
目標は、異なる環境で効果的に機能する共通ポリシーを学ぶことである。
MTRLの2つの基本的な課題に注目する。
論文 参考訳(メタデータ) (2020-06-08T03:28:19Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。