論文の概要: Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.08794v1
- Date: Mon, 17 Jul 2023 19:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:40:33.226085
- Title: Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning
- Title(参考訳): マルチタイムマルチエージェント強化学習のための非定常ポリシー学習
- Authors: Patrick Emami, Xiangyu Zhang, David Biagioni, Ahmed S. Zamzam
- Abstract要約: マルチタイムスケールのマルチエージェント強化学習では、エージェントは異なる時間スケールで相互作用する。
マルチスケールMARLのための非定常ポリシーを学習するための簡単なフレームワークを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
- 参考スコア(独自算出の注目度): 9.808555135836022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-timescale multi-agent reinforcement learning (MARL), agents interact
across different timescales. In general, policies for time-dependent behaviors,
such as those induced by multiple timescales, are non-stationary. Learning
non-stationary policies is challenging and typically requires sophisticated or
inefficient algorithms. Motivated by the prevalence of this control problem in
real-world complex systems, we introduce a simple framework for learning
non-stationary policies for multi-timescale MARL. Our approach uses available
information about agent timescales to define a periodic time encoding. In
detail, we theoretically demonstrate that the effects of non-stationarity
introduced by multiple timescales can be learned by a periodic multi-agent
policy. To learn such policies, we propose a policy gradient algorithm that
parameterizes the actor and critic with phase-functioned neural networks, which
provide an inductive bias for periodicity. The framework's ability to
effectively learn multi-timescale policies is validated on a gridworld and
building energy management environment.
- Abstract(参考訳): マルチタイム・マルチエージェント強化学習(MARL)では、エージェントは異なる時間スケールで相互作用する。
一般に、複数の時間スケールによって引き起こされるような時間依存行動のポリシーは定常的ではない。
非定常ポリシーの学習は困難であり、一般的に高度なアルゴリズムや非効率なアルゴリズムを必要とする。
実世界の複合システムにおけるこの制御問題の普及により,マルチスケールMARLのための非定常ポリシーを学習するためのシンプルなフレームワークを導入する。
提案手法では,エージェントの時間スケールに関する情報を用いて周期的時間エンコーディングを定義する。
理論的には、複数の時間スケールによって導入された非定常性の効果は、周期的マルチエージェントポリシーによって学習できる。
このような方針を学習するために,アクターと批判者を位相関数型ニューラルネットワークでパラメータ化し,周期性に対する帰納的バイアスを与えるポリシ勾配アルゴリズムを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
関連論文リスト
- Discovering How Agents Learn Using Few Data [32.38609641970052]
本稿では,単一系軌道の短いバーストを用いたエージェント動作のリアルタイム同定のための理論的,アルゴリズム的なフレームワークを提案する。
提案手法は, 平衡選択やカオスシステムの予測など, 様々なベンチマークにおいて, 真の力学を正確に再現する。
これらの結果から,戦略的マルチエージェントシステムにおいて,効果的な政策と意思決定を支援する可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Doubly Inhomogeneous Reinforcement Learning [4.334006170547247]
我々は、ポリシー学習のために、時間とともに個人間で類似したダイナミクスを表示する「最良のデータチャンクを決定するためのオリジナルアルゴリズム」を提案する。
提案手法は汎用的であり,クラスタリングおよび変更点検出アルゴリズムの幅広い範囲で動作する。
論文 参考訳(メタデータ) (2022-11-08T03:41:14Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Consolidation via Policy Information Regularization in Deep RL for
Multi-Agent Games [21.46148507577606]
本稿では,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)強化学習アルゴリズムにおいて,学習ポリシの複雑さに関する情報理論的制約を導入する。
多エージェント協調型・競争型タスクの実験結果から,これらの環境における学習性能向上のための能力制限型アプローチがよい候補であることが示された。
論文 参考訳(メタデータ) (2020-11-23T16:28:27Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - A Decentralized Policy Gradient Approach to Multi-task Reinforcement
Learning [13.733491423871383]
マルチタスク強化学習問題を解決するためのフレームワークを開発する。
目標は、異なる環境で効果的に機能する共通ポリシーを学ぶことである。
MTRLの2つの基本的な課題に注目する。
論文 参考訳(メタデータ) (2020-06-08T03:28:19Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。