Fugu-MT 論文翻訳(概要): Experience Augmentation: Boosting and Accelerating Off-Policy Multi-Agent Reinforcement Learning

論文の概要: Experience Augmentation: Boosting and Accelerating Off-Policy Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.09453v2
Date: Wed, 20 May 2020 02:12:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 13:41:06.884469
Title: Experience Augmentation: Boosting and Accelerating Off-Policy Multi-Agent Reinforcement Learning
Title（参考訳）: 経験強化:オフポリティ・マルチエージェント強化学習の促進と加速
Authors: Zhenhui Ye, Yining Chen, Guanghua Song, Bowei Yang, Shen Fan
Abstract要約: 本稿では,環境への高速で公平で徹底的な探索に基づく,時間効率と学習の促進を実現するエクスペリエンス向上について述べる。本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証することによって実証する。
参考スコア（独自算出の注目度）: 6.374722265790792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exploration of the high-dimensional state action space is one of the biggest challenges in Reinforcement Learning (RL), especially in multi-agent domain. We present a novel technique called Experience Augmentation, which enables a time-efficient and boosted learning based on a fast, fair and thorough exploration to the environment. It can be combined with arbitrary off-policy MARL algorithms and is applicable to either homogeneous or heterogeneous environments. We demonstrate our approach by combining it with MADDPG and verifing the performance in two homogeneous and one heterogeneous environments. In the best performing scenario, the MADDPG with experience augmentation reaches to the convergence reward of vanilla MADDPG with 1/4 realistic time, and its convergence beats the original model by a significant margin. Our ablation studies show that experience augmentation is a crucial ingredient which accelerates the training process and boosts the convergence.
Abstract（参考訳）: 高次元状態行動空間の探索は強化学習(RL)、特にマルチエージェント領域における最大の課題の1つである。本稿では,環境への高速で公平かつ徹底的な探索に基づいて,時間効率と学習の促進を可能にする,経験向上という新しい手法を提案する。任意のオフポリシーmarlアルゴリズムと組み合わせることができ、均質または異質な環境に適用できる。本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証する。最高のシナリオでは、経験増強を伴う MADDPG は、バニラ MADDPG の1/4 実時間収束報酬に到達し、その収束率は元のモデルよりもかなりの差となる。我々のアブレーション研究は、経験増強がトレーニングプロセスを加速し、収束を促進する重要な要素であることを示している。

関連論文リスト

Imagine, Initialize, and Explore: An Effective Exploration Method in Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文参考訳（メタデータ） (2024-02-28T01:45:01Z)
Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文参考訳（メタデータ） (2024-01-08T19:25:40Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
SVDE: Scalable Value-Decomposition Exploration for Cooperative Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文参考訳（メタデータ） (2023-03-16T03:17:20Z)
Deep Multi-Agent Reinforcement Learning with Hybrid Action Spaces based on Maximum Entropy [0.0]
本稿では,ハイブリッドアクション空間におけるマルチエージェント問題に対処するために,深層マルチエージェントハイブリッド・アクター・クリティカル(MAHSAC)を提案する。このアルゴリズムは、中央集権的なトレーニングであるが、分散実行(CTDE)パラダイムに従い、ハイブリッドアクション空間問題を扱うためにソフトアクター・クリティカルアルゴリズム(SAC)を拡張している。私たちの経験は、連続的な観察と離散的なアクション空間を持つ、簡単なマルチエージェント粒子の世界と、いくつかの基本的なシミュレートされた物理学で動いています。
論文参考訳（メタデータ） (2022-06-10T13:52:59Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文参考訳（メタデータ） (2021-09-27T12:42:05Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Forgetful Experience Replay in Hierarchical Reinforcement Learning from Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文参考訳（メタデータ） (2020-06-17T15:38:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。