論文の概要: Curiosity-Driven Multi-Agent Exploration with Mixed Objectives
- arxiv url: http://arxiv.org/abs/2210.16468v1
- Date: Sat, 29 Oct 2022 02:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:14:20.877222
- Title: Curiosity-Driven Multi-Agent Exploration with Mixed Objectives
- Title(参考訳): 混合目的を用いた好奇心駆動型マルチエージェント探索
- Authors: Roben Delos Reyes, Kyunghwan Son, Jinhwan Jung, Wan Ju Kang, Yung Yi
- Abstract要約: 単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
- 参考スコア(独自算出の注目度): 7.247148291603988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic rewards have been increasingly used to mitigate the sparse reward
problem in single-agent reinforcement learning. These intrinsic rewards
encourage the agent to look for novel experiences, guiding the agent to explore
the environment sufficiently despite the lack of extrinsic rewards.
Curiosity-driven exploration is a simple yet efficient approach that quantifies
this novelty as the prediction error of the agent's curiosity module, an
internal neural network that is trained to predict the agent's next state given
its current state and action. We show here, however, that naively using this
curiosity-driven approach to guide exploration in sparse reward cooperative
multi-agent environments does not consistently lead to improved results.
Straightforward multi-agent extensions of curiosity-driven exploration take
into consideration either individual or collective novelty only and thus, they
do not provide a distinct but collaborative intrinsic reward signal that is
essential for learning in cooperative multi-agent tasks. In this work, we
propose a curiosity-driven multi-agent exploration method that has the mixed
objective of motivating the agents to explore the environment in ways that are
individually and collectively novel. First, we develop a two-headed curiosity
module that is trained to predict the corresponding agent's next observation in
the first head and the next joint observation in the second head. Second, we
design the intrinsic reward formula to be the sum of the individual and joint
prediction errors of this curiosity module. We empirically show that the
combination of our curiosity module architecture and intrinsic reward
formulation guides multi-agent exploration more efficiently than baseline
approaches, thereby providing the best performance boost to MARL algorithms in
cooperative navigation environments with sparse rewards.
- Abstract(参考訳): 内在的な報酬は、シングルエージェント強化学習におけるスパース報酬問題を軽減するためにますます使われてきた。
これらの本質的な報酬は、外生的な報酬の欠如にもかかわらず、エージェントに環境を十分に探索するよう指示する。
キュリオシティ駆動探索(curiosity-driven exploration)は、エージェントのキュリオシティモジュールの予測エラーとしてこの新しさを定量化する、単純かつ効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
好奇心駆動探索の直接的なマルチエージェント拡張は、個人的または集団的新しさのみを考慮しており、協調的マルチエージェントタスクの学習に不可欠な、独特で協力的な内在的な報酬信号を提供していない。
本研究では,エージェントが個人的かつ集団的に新しい方法で環境を探索する動機づけとなる,好奇心を駆使した多エージェント探索手法を提案する。
まず,第1頭部における対応するエージェントの次観測と第2頭部における第2関節観察を予測できるように訓練した2頭部好奇性モジュールを開発する。
第2に、本モジュールの個人と共同予測誤差の和として、内在的な報酬公式を設計する。
実験により、我々の好奇性モジュールアーキテクチャと本質的な報酬の定式化の組み合わせは、ベースラインアプローチよりも効率的にマルチエージェント探索を誘導し、スパース報酬を伴う協調ナビゲーション環境におけるMARLアルゴリズムの性能向上を実現する。
関連論文リスト
- Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。