論文の概要: Skill Discovery of Coordination in Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.04021v1
- Date: Sun, 7 Jun 2020 02:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:29:58.044170
- Title: Skill Discovery of Coordination in Multi-agent Reinforcement Learning
- Title(参考訳): 多エージェント強化学習におけるコーディネーションのスキル発見
- Authors: Shuncheng He, Jianzhun Shao, Xiangyang Ji
- Abstract要約: 本稿では,複数のエージェントの協調パターンを識別する手法であるMASD(Multi-agent Skill Discovery)を提案する。
一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
また,この「ボトルネック」は,一つのエージェントにスキルが崩壊するのを防ぎ,学習スキルの多様性を高めることも明らかにした。
- 参考スコア(独自算出の注目度): 41.67943127631515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised skill discovery drives intelligent agents to explore the unknown
environment without task-specific reward signal, and the agents acquire various
skills which may be useful when the agents adapt to new tasks. In this paper,
we propose "Multi-agent Skill Discovery"(MASD), a method for discovering skills
for coordination patterns of multiple agents. The proposed method aims to
maximize the mutual information between a latent code Z representing skills and
the combination of the states of all agents. Meanwhile it suppresses the
empowerment of Z on the state of any single agent by adversarial training. In
another word, it sets an information bottleneck to avoid empowerment
degeneracy. First we show the emergence of various skills on the level of
coordination in a general particle multi-agent environment. Second, we reveal
that the "bottleneck" prevents skills from collapsing to a single agent and
enhances the diversity of learned skills. Finally, we show the pretrained
policies have better performance on supervised RL tasks.
- Abstract(参考訳): 教師なしスキル発見は、知的エージェントをタスク固有の報酬信号なしで未知の環境を探索させ、エージェントは新しいタスクに適応する際に有用な様々なスキルを取得する。
本稿では,複数のエージェントの協調パターンに対するスキルの発見手法である"multi-agent skill discovery"(masd)を提案する。
提案手法は,スキルを表す潜在コードZと,エージェントの状態の組合せの相互情報を最大化することを目的としている。
一方、敵の訓練によって任意のエージェントの状態におけるzのエンパワーメントを抑制する。
言い換えれば、エンパワーメントの縮退を避けるために情報のボトルネックを設定します。
まず,一般粒子マルチエージェント環境における協調のレベルにおける様々なスキルの出現を示す。
第2に,「ボトルネック」は,一つのエージェントへのスキルの崩壊を防止し,学習スキルの多様性を高める。
最後に、事前訓練されたポリシーは、教師付きRLタスクにおいてより良い性能を示す。
関連論文リスト
- ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Human-Inspired Multi-Agent Navigation using Knowledge Distillation [4.659427498118277]
本稿では,エージェントエージェントインタラクションのためのヒューマンライクな一般的な衝突回避ポリシーを学習するためのフレームワークを提案する。
提案手法では, 知識蒸留と強化学習を用いて報酬関数を形作る。
提案手法により訓練されたエージェントは,衝突回避や目標指向の操舵作業において,人間のような軌道を取ることができることを示す。
論文 参考訳(メタデータ) (2021-03-18T03:24:38Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。