論文の概要: Causality Detection for Efficient Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.14227v1
- Date: Fri, 24 Mar 2023 18:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 21:16:52.530004
- Title: Causality Detection for Efficient Multi-Agent Reinforcement Learning
- Title(参考訳): 効率的なマルチエージェント強化学習のための因果検出
- Authors: Rafael Pina, Varuna De Silva and Corentin Artaud
- Abstract要約: 遅延エージェントをペナライズし,その振る舞いを改善するために因果関係をどのように利用できるかを示す。
マルチエージェント強化学習における因果推定は,チームの全体的パフォーマンスだけでなく,各エージェントの個々の能力も向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning a task as a team, some agents in Multi-Agent Reinforcement
Learning (MARL) may fail to understand their true impact in the performance of
the team. Such agents end up learning sub-optimal policies, demonstrating
undesired lazy behaviours. To investigate this problem, we start by formalising
the use of temporal causality applied to MARL problems. We then show how
causality can be used to penalise such lazy agents and improve their
behaviours. By understanding how their local observations are causally related
to the team reward, each agent in the team can adjust their individual credit
based on whether they helped to cause the reward or not. We show empirically
that using causality estimations in MARL improves not only the holistic
performance of the team, but also the individual capabilities of each agent. We
observe that the improvements are consistent in a set of different
environments.
- Abstract(参考訳): タスクをチームとして学ぶとき、MARL(Multi-Agent Reinforcement Learning)のエージェントの中には、チームのパフォーマンスに対する真の影響を理解することができないものもある。
このようなエージェントは、望ましくない怠慢な振る舞いを示す、準最適ポリシーを学ぶ。
そこで本研究では,marl問題に適用した時間的因果関係の利用を定式化することから始まる。
次に,このような遅延エージェントのペナルティと行動改善に因果性がどう役立つかを示す。
彼らのローカルな観察がチーム報酬と因果関係にあるかを理解することによって、チームの各エージェントは、報酬を発生させたかどうかに基づいて個々のクレジットを調整することができる。
MARLにおける因果推定は,チームの全体的パフォーマンスだけでなく,各エージェントの個々の能力も向上することを示す。
我々は、改善が複数の異なる環境で一貫したものであることを観察する。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Learning Independently from Causality in Multi-Agent Environments [0.0]
MARL(Multi-Agent Reinforcement Learning)は、機械学習分野への関心が高まっている分野である。
遅延エージェントの病理はMARLで有名な問題であり、MARLチームのエージェントが共通の目標に寄与していない場合にイベントを表す。
エージェントは協調戦略を学習し、個々の観察とチームの報酬との間に因果関係があることを示す。
論文 参考訳(メタデータ) (2023-11-05T19:12:08Z) - Behavioral Analysis of Vision-and-Language Navigation Agents [21.31684388423088]
VLN(Vision-and-Language Navigation)エージェントは、周囲に基づいて行動の指示を下すことができる。
本研究では,エージェントの振る舞いを専門知識に基づいて研究する手法を開発した。
論文 参考訳(メタデータ) (2023-07-20T11:42:24Z) - Discovering Causality for Efficient Cooperation in Multi-Agent
Environments [0.0]
協調的マルチエージェント強化学習(MARL)エージェントでは、共通の目標を達成するためにチームとして行動を学ぶ必要がある。
タスクを学習している間、一部のエージェントは、チームの目的に寄与しない、最適なサブポリシーを学ぶことになるかもしれない。
このようなエージェントは、非協力的な振る舞いのために遅延剤と呼ばれ、それらが報酬の原因であるかどうかを理解できないことから生じる可能性がある。
論文 参考訳(メタデータ) (2023-06-20T18:56:25Z) - Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning [0.0]
我々は,Multiagent Inverse Reinforcement Learning(MIRL)に対する新しいアプローチを提案する。
MIRLは、タスクパフォーマンス中に与えられた各チームの振る舞いの軌跡を導く報酬関数を推論することを目的としている。
シミュレーション2-player search-and-rescue 動作におけるアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-02-20T19:07:42Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。