論文の概要: Attention Actor-Critic algorithm for Multi-Agent Constrained
Co-operative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.02349v1
- Date: Thu, 7 Jan 2021 03:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:32:11.541721
- Title: Attention Actor-Critic algorithm for Multi-Agent Constrained
Co-operative Reinforcement Learning
- Title(参考訳): マルチエージェント制約付き協調強化学習のためのアテンションアクタ・クリティカルアルゴリズム
- Authors: P.Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda and
Shalabh Bhatnagar
- Abstract要約: 協調的な環境下での強化学習(RL)エージェントの最適動作の計算問題について考察する。
我々はこのアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
- 参考スコア(独自算出の注目度): 3.296127938396392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the problem of computing optimal actions for
Reinforcement Learning (RL) agents in a co-operative setting, where the
objective is to optimize a common goal. However, in many real-life
applications, in addition to optimizing the goal, the agents are required to
satisfy certain constraints specified on their actions. Under this setting, the
objective of the agents is to not only learn the actions that optimize the
common objective but also meet the specified constraints. In recent times, the
Actor-Critic algorithm with an attention mechanism has been successfully
applied to obtain optimal actions for RL agents in multi-agent environments. In
this work, we extend this algorithm to the constrained multi-agent RL setting.
The idea here is that optimizing the common goal and satisfying the constraints
may require different modes of attention. By incorporating different attention
modes, the agents can select useful information required for optimizing the
objective and satisfying the constraints separately, thereby yielding better
actions. Through experiments on benchmark multi-agent environments, we show the
effectiveness of our proposed algorithm.
- Abstract(参考訳): 本研究では,共通目標の最適化を目的とした協調学習環境において,強化学習 (rl) エージェントの最適動作を計算することの問題点について考察する。
しかし、多くの現実のアプリケーションでは、目標の最適化に加えて、エージェントはアクションに指定された特定の制約を満たす必要がある。
この設定の下で、エージェントの目的は、共通の目的を最適化するアクションを学ぶだけでなく、指定された制約を満たすことである。
近年,マルチエージェント環境下でのRLエージェントの最適動作を得るために,アテンション機構を持つアクター・クライブアルゴリズムが成功している。
本研究では,このアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
ここでの考え方は、共通の目標を最適化し、制約を満たすには、異なる注意のモードが必要になるかもしれないということです。
異なるアテンションモードを組み込むことにより、エージェントは目標を最適化し、制約を個別に満たすのに必要な有用な情報を選択でき、より良いアクションが得られる。
ベンチマークマルチエージェント環境における実験を通じて,提案手法の有効性を示す。
関連論文リスト
- Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate
ranks [49.85896045032822]
非支配解と最高多変量階との自然な関係を示し、これは合同累積分布関数(CDF)の最外層線と一致する。
我々はCDFインジケータに基づくBOtiedと呼ばれる取得関数を提案する。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Joint Entropy Search for Multi-objective Bayesian Optimization [0.0]
本稿では,統合エントロピー探索(Joint Entropy Search)と呼ばれるBOのための情報理論獲得関数を提案する。
本稿では, ハイパーボリュームとその重み付き変種の観点から, 合成および実世界の諸問題に対するこの新しいアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-10-06T13:19:08Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。
RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文 参考訳(メタデータ) (2020-07-09T10:01:32Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。