論文の概要: Laser Learning Environment: A new environment for coordination-critical multi-agent tasks
- arxiv url: http://arxiv.org/abs/2404.03596v1
- Date: Thu, 4 Apr 2024 17:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-05 14:02:35.704314
- Title: Laser Learning Environment: A new environment for coordination-critical multi-agent tasks
- Title(参考訳): レーザー学習環境 : 協調クリティカルなマルチエージェントタスクのための新しい環境
- Authors: Yannick Molinghen, Raphaël Avalos, Mark Van Achter, Ann Nowé, Tom Lenaerts,
- Abstract要約: 本稿では,協調型マルチエージェント強化学習環境であるLaser Learning Environment (LLE)を紹介する。
LLEでは、エージェントはお互いに依存して進行(相互依存)し、成功するための特定のアクションのシーケンスを共同で取らなければならない(完全な調整)。
我々は、複数の最先端値ベースMARLアルゴリズムをLLEに対してテストし、状態空間ボトルネックを回避できないために、協調作業で一貫して失敗することを示す。
- 参考スコア(独自算出の注目度): 4.13371160414346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Laser Learning Environment (LLE), a collaborative multi-agent reinforcement learning environment in which coordination is central. In LLE, agents depend on each other to make progress (interdependence), must jointly take specific sequences of actions to succeed (perfect coordination), and accomplishing those joint actions does not yield any intermediate reward (zero-incentive dynamics). The challenge of such problems lies in the difficulty of escaping state space bottlenecks caused by interdependence steps since escaping those bottlenecks is not rewarded. We test multiple state-of-the-art value-based MARL algorithms against LLE and show that they consistently fail at the collaborative task because of their inability to escape state space bottlenecks, even though they successfully achieve perfect coordination. We show that Q-learning extensions such as prioritized experience replay and n-steps return hinder exploration in environments with zero-incentive dynamics, and find that intrinsic curiosity with random network distillation is not sufficient to escape those bottlenecks. We demonstrate the need for novel methods to solve this problem and the relevance of LLE as cooperative MARL benchmark.
- Abstract(参考訳): 本稿では,協調型マルチエージェント強化学習環境であるLaser Learning Environment (LLE)を紹介する。
LLEでは、エージェントはお互いに依存して進行(相互依存)し、成功するための特定のアクションのシーケンスを共同で取らなければならない(完全な調整)。
このような問題の課題は、それらのボトルネックを逃れることが報われないので、相互依存ステップによって引き起こされる状態空間のボトルネックを逃れることの難しさにある。
我々は、複数の最先端値ベースMARLアルゴリズムをLLEに対してテストし、完全な調整を達成できたとしても、状態空間のボトルネックから逃れることができないため、協調作業で一貫して失敗することを示した。
優先体験リプレイやnステップのようなQラーニング拡張は、ゼロインセンティブのダイナミックスを持つ環境での探索を妨げることが示され、ランダムなネットワーク蒸留による固有好奇性は、それらのボトルネックを回避するには不十分であることがわかった。
本稿では,この問題を解決するための新しい手法の必要性と,協調型MARLベンチマークとしてのLLEの妥当性を示す。
関連論文リスト
- Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Decentralized Multi-Agent Reinforcement Learning for Task Offloading
Under Uncertainty [24.083871784808473]
MARL(Multi-Agent Reinforcement Learning)は、強化学習の課題である。
タスクオフロード問題を解くために、ディープMARLアルゴリズムが適用されている。
報奨信号の摂動は, 完全報奨学習と比較して, 性能の低下を招き得ることを示す。
論文 参考訳(メタデータ) (2021-07-16T20:49:30Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。