論文の概要: Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2101.06890v1
- Date: Mon, 18 Jan 2021 05:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 17:18:07.515462
- Title: Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習のための協調バイアスと競争バイアス
- Authors: Heechang Ryu, Hayong Shin, Jinkyoo Park
- Abstract要約: マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
- 参考スコア(独自算出の注目度): 12.676356746752893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a multi-agent reinforcement learning (MARL) algorithm is more
challenging than training a single-agent reinforcement learning algorithm,
because the result of a multi-agent task strongly depends on the complex
interactions among agents and their interactions with a stochastic and dynamic
environment. We propose an algorithm that boosts MARL training using the biased
action information of other agents based on a friend-or-foe concept. For a
cooperative and competitive environment, there are generally two groups of
agents: cooperative-agents and competitive-agents. In the proposed algorithm,
each agent updates its value function using its own action and the biased
action information of other agents in the two groups. The biased joint action
of cooperative agents is computed as the sum of their actual joint action and
the imaginary cooperative joint action, by assuming all the cooperative agents
jointly maximize the target agent's value function. The biased joint action of
competitive agents can be computed similarly. Each agent then updates its own
value function using the biased action information, resulting in a biased value
function and corresponding biased policy. Subsequently, the biased policy of
each agent is inevitably subjected to recommend an action to cooperate and
compete with other agents, thereby introducing more active interactions among
agents and enhancing the MARL policy learning. We empirically demonstrate that
our algorithm outperforms existing algorithms in various mixed
cooperative-competitive environments. Furthermore, the introduced biases
gradually decrease as the training proceeds and the correction based on the
imaginary assumption vanishes.
- Abstract(参考訳): マルチエージェント強化学習(MARL)アルゴリズムの訓練は、エージェント間の複雑な相互作用と確率的・動的環境との相互作用に強く依存するため、シングルエージェント強化学習アルゴリズムの訓練よりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
協調的で競争的な環境には、一般的に2つのエージェント(協調エージェントと競争エージェント)がある。
提案アルゴリズムでは,各エージェントがそれぞれのアクションと2つのグループの他のエージェントのバイアス作用情報を用いて値関数を更新する。
協調エージェントのバイアス付き共同動作は、すべての協調エージェントが共同してターゲットエージェントの価値関数を最大化することにより、実際の共同動作と想像上の共同動作の合計として計算される。
競合剤のバイアス付き共同作用も同様に計算できる。
各エージェントはバイアス付きアクション情報を使用して自身の値関数を更新し、バイアス付き値関数と対応するバイアス付きポリシを生成する。
その後、各エージェントのバイアスドポリシーは必然的に、他のエージェントと協力し、競合するアクションを推奨し、エージェント間のより活発な相互作用を導入し、MARLポリシー学習を強化する。
提案アルゴリズムは,様々な混合協調競合環境において,既存のアルゴリズムよりも優れていることを示す。
さらに、訓練が進むにつれて導入されるバイアスは徐々に減少し、虚偽の仮定に基づく補正がなくなる。
関連論文リスト
- Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - On Emergent Communication in Competitive Multi-Agent Teams [116.95067289206919]
外部のエージェントチームによるパフォーマンスの競争が社会的影響として作用するかどうかを検討する。
以上の結果から,外部競争の影響により精度と一般化が向上し,コミュニケーション言語が急速に出現することが示唆された。
論文 参考訳(メタデータ) (2020-03-04T01:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。