論文の概要: Influence-based Reinforcement Learning for Intrinsically-motivated
Agents
- arxiv url: http://arxiv.org/abs/2108.12581v1
- Date: Sat, 28 Aug 2021 05:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:32:45.694890
- Title: Influence-based Reinforcement Learning for Intrinsically-motivated
Agents
- Title(参考訳): 内在的動機づけエージェントに対する影響に基づく強化学習
- Authors: Ammar Fayad, Majd Ibrahim
- Abstract要約: 2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reinforcement learning (RL) research area is very active, with several
important applications. However, certain challenges still need to be addressed,
amongst which one can mention the ability to find policies that achieve
sufficient exploration and coordination while solving a given task. In this
work, we present an algorithmic framework of two RL agents each with a
different objective. We introduce a novel function approximation approach to
assess the influence $F$ of a certain policy on others. While optimizing $F$ as
a regularizer of $\pi$'s objective, agents learn to coordinate team behavior
while exploiting high-reward regions of the solution space. Additionally, both
agents use prediction error as intrinsic motivation to learn policies that
behave as differently as possible, thus achieving the exploration criterion.
Our method was evaluated on the suite of OpenAI gym tasks as well as
cooperative and mixed scenarios, where agent populations are able to discover
various physical and informational coordination strategies, showing
state-of-the-art performance when compared to famous baselines.
- Abstract(参考訳): 強化学習(RL)研究領域は非常に活発であり、いくつかの重要な応用がある。
しかしながら、特定のタスクを解決しながら十分な探索と調整を達成するポリシーを見つける能力について言及できるような、特定の課題に対処する必要がある。
本研究では、2つのRLエージェントをそれぞれ異なる目的を持つアルゴリズムフレームワークを提案する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
F$を$\pi$の目的の正規化子として最適化する一方で、エージェントはソリューション空間の高逆領域を利用してチームの振る舞いを調整することを学ぶ。
さらに、どちらのエージェントも予測エラーを本質的な動機付けとして使用し、可能な限り異なる振る舞いをするポリシを学ぶ。
本手法は, エージェント集団が様々な身体的, 情報的コーディネーション戦略を発見でき, 有名なベースラインと比較して, 最先端のパフォーマンスを示すことができる, オープンAIジムタスクと協調・混合シナリオを用いて評価した。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。