論文の概要: Discovering Causality for Efficient Cooperation in Multi-Agent
Environments
- arxiv url: http://arxiv.org/abs/2306.11846v1
- Date: Tue, 20 Jun 2023 18:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:55:14.585087
- Title: Discovering Causality for Efficient Cooperation in Multi-Agent
Environments
- Title(参考訳): マルチエージェント環境における効率的な協調のための因果関係の発見
- Authors: Rafael Pina, Varuna De Silva, Corentin Artaud
- Abstract要約: 協調的マルチエージェント強化学習(MARL)エージェントでは、共通の目標を達成するためにチームとして行動を学ぶ必要がある。
タスクを学習している間、一部のエージェントは、チームの目的に寄与しない、最適なサブポリシーを学ぶことになるかもしれない。
このようなエージェントは、非協力的な振る舞いのために遅延剤と呼ばれ、それらが報酬の原因であるかどうかを理解できないことから生じる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative Multi-Agent Reinforcement Learning (MARL) agents are required
to learn behaviours as a team to achieve a common goal. However, while learning
a task, some agents may end up learning sub-optimal policies, not contributing
to the objective of the team. Such agents are called lazy agents due to their
non-cooperative behaviours that may arise from failing to understand whether
they caused the rewards. As a consequence, we observe that the emergence of
cooperative behaviours is not necessarily a byproduct of being able to solve a
task as a team. In this paper, we investigate the applications of causality in
MARL and how it can be applied in MARL to penalise these lazy agents. We
observe that causality estimations can be used to improve the credit assignment
to the agents and show how it can be leveraged to improve independent learning
in MARL. Furthermore, we investigate how Amortized Causal Discovery can be used
to automate causality detection within MARL environments. The results
demonstrate that causality relations between individual observations and the
team reward can be used to detect and punish lazy agents, making them develop
more intelligent behaviours. This results in improvements not only in the
overall performances of the team but also in their individual capabilities. In
addition, results show that Amortized Causal Discovery can be used efficiently
to find causal relations in MARL.
- Abstract(参考訳): 協調的マルチエージェント強化学習(MARL)エージェントでは、共通の目標を達成するためにチームとして行動を学ぶ必要がある。
しかし、タスクを学習している間に、いくつかのエージェントは、チームの目的に寄与せず、最適化されたポリシーを学ぶことになります。
このようなエージェントは非協力的行動のため遅延剤と呼ばれ、それが報酬の原因であるかどうかを理解できないことから生じる可能性がある。
結果として、協調行動の出現は必ずしもチームとしてタスクを解決できる副産物ではないことを観察する。
本稿では,MARLにおける因果関係の応用と,MARLを用いてこれらの遅延剤をペナライズする方法について検討する。
因果推定はエージェントへの信用割当を改善するために利用でき、MARLにおける独立学習を改善するためにどのように活用できるかを示す。
さらに,marl環境における因果性検出の自動化にamortizedcausal discoveryの利用法について検討した。
その結果、個々の観察とチーム報酬の因果関係は、怠慢なエージェントを検出して処罰するために利用され、よりインテリジェントな振る舞いが発達することを示した。
これにより、チームの全体的なパフォーマンスだけでなく、個々の能力も改善されます。
さらに,MARLの因果関係を見つけるために,Amortized Causal Discoveryを効率的に利用できることが示唆された。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - On Diagnostics for Understanding Agent Training Behaviour in Cooperative
MARL [5.124364759305485]
我々は、経験的リターンのみに依存することは、エージェントの振る舞いに不明瞭な重要な洞察を与えるかもしれないと論じる。
本稿では,エージェントの動作に対する深い洞察を得るために,説明可能なAI(XAI)ツールの適用について検討する。
論文 参考訳(メタデータ) (2023-12-13T19:10:10Z) - Learning Independently from Causality in Multi-Agent Environments [0.0]
MARL(Multi-Agent Reinforcement Learning)は、機械学習分野への関心が高まっている分野である。
遅延エージェントの病理はMARLで有名な問題であり、MARLチームのエージェントが共通の目標に寄与していない場合にイベントを表す。
エージェントは協調戦略を学習し、個々の観察とチームの報酬との間に因果関係があることを示す。
論文 参考訳(メタデータ) (2023-11-05T19:12:08Z) - Causality Detection for Efficient Multi-Agent Reinforcement Learning [0.0]
遅延エージェントをペナライズし,その振る舞いを改善するために因果関係をどのように利用できるかを示す。
マルチエージェント強化学習における因果推定は,チームの全体的パフォーマンスだけでなく,各エージェントの個々の能力も向上することを示す。
論文 参考訳(メタデータ) (2023-03-24T18:47:44Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。