論文の概要: Multi-agent Natural Actor-critic Reinforcement Learning Algorithms
- arxiv url: http://arxiv.org/abs/2109.01654v1
- Date: Fri, 3 Sep 2021 17:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:20:08.659101
- Title: Multi-agent Natural Actor-critic Reinforcement Learning Algorithms
- Title(参考訳): 多エージェントな自然アクター批判強化学習アルゴリズム
- Authors: Prashant Trivedi, Nandyala Hemachandra
- Abstract要約: 完全分散型マルチエージェント・ナチュラルアクター・クリティカル(MAN)アルゴリズムを3つ提案する。
エージェントの目的は、これらのエージェントの平均的な長期的なリターンの総和を最大化する共同政策を集合的に学習することである。
中央のコントローラがない場合、エージェントは通信ネットワークを介して隣人に情報を伝達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both single-agent and multi-agent actor-critic algorithms are an important
class of Reinforcement Learning algorithms. In this work, we propose three
fully decentralized multi-agent natural actor-critic (MAN) algorithms. The
agents' objective is to collectively learn a joint policy that maximizes the
sum of averaged long-term returns of these agents. In the absence of a central
controller, agents communicate the information to their neighbors via a
time-varying communication network while preserving privacy. We prove the
convergence of all the 3 MAN algorithms to a globally asymptotically stable
point of the ODE corresponding to the actor update; these use linear function
approximations. We use the Fisher information matrix to obtain the natural
gradients. The Fisher information matrix captures the curvature of the
Kullback-Leibler (KL) divergence between polices at successive iterates. We
also show that the gradient of this KL divergence between policies of
successive iterates is proportional to the objective function's gradient. Our
MAN algorithms indeed use this \emph{representation} of the objective
function's gradient. Under certain conditions on the Fisher information matrix,
we prove that at each iterate, the optimal value via MAN algorithms can be
better than that of the multi-agent actor-critic (MAAC) algorithm using the
standard gradients. To validate the usefulness of our proposed algorithms, we
implement all the 3 MAN algorithms on a bi-lane traffic network to reduce the
average network congestion. We observe an almost 25% reduction in the average
congestion in 2 MAN algorithms; the average congestion in another MAN algorithm
is on par with the MAAC algorithm. We also consider a generic 15 agent MARL;
the performance of the MAN algorithms is again as good as the MAAC algorithm.
We attribute the better performance of the MAN algorithms to their use of the
above representation.
- Abstract(参考訳): シングルエージェントとマルチエージェントアクター批判アルゴリズムは、強化学習アルゴリズムの重要なクラスである。
本研究では,完全分散型多エージェント自然アクター危機(man)アルゴリズムを提案する。
エージェントの目的は、これらのエージェントの平均的な長期的なリターンの総和を最大化する共同政策を集合的に学習することである。
中央制御装置がない場合、エージェントはプライバシーを保ちながら、時間的に変化する通信ネットワークを介して隣人と情報を通信する。
我々は、すべての3 manアルゴリズムをアクター更新に対応するodeのグローバル漸近安定点に収束することを証明し、これらは線形関数近似を用いる。
我々は,フィッシャー情報行列を用いて自然勾配を求める。
フィッシャー情報行列は、連続した反復で警察間のクルバック・リーブラー(KL)の曲率をキャプチャする。
また, 逐次イテレートのポリシー間のklの分岐の勾配は, 目的関数の勾配に比例することを示した。
我々のマンアルゴリズムは実際に対象関数の勾配のこの \emph{representation} を用いる。
Fisher情報行列の特定の条件下では, MANアルゴリズムによる最適値は, 標準勾配を用いたマルチエージェントアクタ・クリティック(MAAC)アルゴリズムよりも優れていることを示す。
提案アルゴリズムの有効性を検証するため,両レーン交通ネットワーク上で3つのMANアルゴリズムをすべて実装し,ネットワークの混雑を低減する。
2 MANアルゴリズムでは,平均渋滞を約25%削減するが,別の MAN アルゴリズムでは平均混雑をMAAC アルゴリズムと同程度に抑えることができる。
また,汎用エージェントMARLについても検討し,MANアルゴリズムの性能はMAACアルゴリズムと同等である。
MANアルゴリズムの性能は,上述の表現を用いることにより向上すると考えられる。
関連論文リスト
- A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Multi-Agent congestion cost minimization with linear function
approximation [0.0]
この作業では、ソースノードからゴールノードにネットワークをトラバースする複数のエージェントについて検討する。
エージェントの目的は、最小限の全体的なコストで、分散的な方法でゴールノードへのパスを見つけることである。
本稿では,新しいマルチエージェント・コンジェクション・コスト最小化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-26T08:45:44Z) - Critic Algorithms using Cooperative Networks [0.0]
マルコフ決定過程における政策評価のためのアルゴリズムを提案する。
このアルゴリズムは、射影ベルマン誤差を追跡し、真の勾配に基づくアルゴリズムとして実装されている。
論文 参考訳(メタデータ) (2022-01-19T19:47:18Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Learning to Coordinate in Multi-Agent Systems: A Coordinated
Actor-Critic Algorithm and Finite-Time Guarantees [43.10380224532313]
本研究ではアクター・クリティカル(AC)アルゴリズムを用いて,自律エージェントによる協調行動の出現について検討する。
本稿では、個別にパラメータ化されたポリシーが共有された部分とパーソナライズされた部分を持つコーディネートされたアクタ・クリティカル・アルゴリズム(CAC)のクラスを提案し、分析する。
この研究は、部分的にパーソナライズされたポリシーを持つ分散ACアルゴリズムに対する最初の有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2021-10-11T20:26:16Z) - Individually Fair Gradient Boosting [86.1984206610373]
我々は、グラデーションブーストにおいて個人の公平性を強制するタスクを検討する。
アルゴリズムがグローバルに収束し、一般化することを示す。
また,アルゴリズムバイアスの影響を受けやすい3つのml問題に対するアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2021-03-31T03:06:57Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。