論文の概要: Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents
- arxiv url: http://arxiv.org/abs/2203.08454v1
- Date: Wed, 16 Mar 2022 08:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 16:01:33.456726
- Title: Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents
- Title(参考訳): 予期せぬクラッシュエージェントのためのコーチ支援マルチエージェント強化学習フレームワーク
- Authors: Jian Zhao, Youpeng Zhao, Weixun Wang, Mingyu Yang, Xunhan Hu, Wengang
Zhou, Jianye Hao, Houqiang Li
- Abstract要約: 本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
- 参考スコア(独自算出の注目度): 120.91291581594773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning is difficult to be applied in practice,
which is partially due to the gap between the simulated and real-world
scenarios. One reason for the gap is that the simulated systems always assume
that the agents can work normally all the time, while in practice, one or more
agents may unexpectedly "crash" during the coordination process due to
inevitable hardware or software failures. Such crashes will destroy the
cooperation among agents, leading to performance degradation. In this work, we
present a formal formulation of a cooperative multi-agent reinforcement
learning system with unexpected crashes. To enhance the robustness of the
system to crashes, we propose a coach-assisted multi-agent reinforcement
learning framework, which introduces a virtual coach agent to adjust the crash
rate during training. We design three coaching strategies and the re-sampling
strategy for our coach agent. To the best of our knowledge, this work is the
first to study the unexpected crashes in the multi-agent system. Extensive
experiments on grid-world and StarCraft II micromanagement tasks demonstrate
the efficacy of adaptive strategy compared with the fixed crash rate strategy
and curriculum learning strategy. The ablation study further illustrates the
effectiveness of our re-sampling strategy.
- Abstract(参考訳): マルチエージェント強化学習は実践では適用が困難であり、シミュレーションと実世界のシナリオのギャップが一部原因である。
このギャップの1つの理由は、シミュレーションシステムは常にエージェントが常に正常に動作可能であると仮定するのに対し、実際には1つ以上のエージェントが不必要なハードウェアやソフトウェア障害のために調整プロセス中に予期せず「クラッシュ」する可能性があるからである。
このようなクラッシュはエージェント間の協調を損なうため、パフォーマンスが低下する。
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの定式化について述べる。
衝突に対するシステムの堅牢性を高めるために,訓練中にクラッシュ率を調整する仮想コーチエージェントを導入した,コーチ支援多エージェント強化学習フレームワークを提案する。
コーチエージェントのための3つのコーチング戦略と再サンプリング戦略を設計します。
私たちの知る限りでは、この研究はマルチエージェントシステムの予期せぬクラッシュを研究する最初の方法です。
グリッドワールドとStarCraft IIのマイクロマネジメントタスクに関する大規模な実験は、固定クラッシュ率戦略やカリキュラム学習戦略と比較して適応戦略の有効性を示した。
アブレーション研究は,我々の再サンプリング戦略の有効性をさらに示している。
関連論文リスト
- You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。