論文の概要: Remember and Forget Experience Replay for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.13319v1
- Date: Thu, 24 Mar 2022 19:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 11:58:58.279292
- Title: Remember and Forget Experience Replay for Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習のための体験リプレイの思い出と忘れ
- Authors: Pascal Weber, Daniel W\"alchli, Mustafa Zeqiri, Petros Koumoutsakos
- Abstract要約: マルチエージェント強化学習(MARL)におけるRefreed and Forget for Experience Replay(ReF-ER)アルゴリズムの拡張について述べる。
ReF-ERはOpenAI Gymから複雑な流体の流れまで、連続的な制御を行うための技術アルゴリズムの状況よりも優れていた。
ReF-ER MARLのポリシーと値関数に1つのフィードフォワードニューラルネットワークを用いることで、複雑なニューラルネットワークアーキテクチャに依存する技術アルゴリズムの状態を上回ります。
- 参考スコア(独自算出の注目度): 3.06414751922655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present the extension of the Remember and Forget for Experience Replay
(ReF-ER) algorithm to Multi-Agent Reinforcement Learning (MARL). {ReF-ER} was
shown to outperform state of the art algorithms for continuous control in
problems ranging from the OpenAI Gym to complex fluid flows. In MARL, the
dependencies between the agents are included in the state-value estimator and
the environment dynamics are modeled via the importance weights used by ReF-ER.
In collaborative environments, we find the best performance when the value is
estimated using individual rewards and we ignore the effects of other actions
on the transition map. We benchmark the performance of ReF-ER MARL on the
Stanford Intelligent Systems Laboratory (SISL) environments. We find that
employing a single feed-forward neural network for the policy and the value
function in ReF-ER MARL, outperforms state of the art algorithms that rely on
complex neural network architectures.
- Abstract(参考訳): 本稿では,Revere and Forget for Experience Replay(ReF-ER)アルゴリズムをマルチエージェント強化学習(MARL)に拡張する。
ReF-ER} は,OpenAI ジムから複雑な流体の流れに至るまで,連続的な制御を行う技術アルゴリズムの状態を上回り,その性能を向上することを示した。
MARLでは、エージェント間の依存関係は状態値推定器に含まれ、環境力学はReF-ERで使われる重みによってモデル化される。
協調的な環境では、各報酬を用いて値が推定されたときの最高のパフォーマンスを見つけ、移行マップ上の他のアクションの影響を無視する。
我々は,Stanford Intelligent Systems Laboratory (SISL)環境におけるReF-ER MARLの性能をベンチマークした。
ReF-ER MARLのポリシーと値関数に1つのフィードフォワードニューラルネットワークを用いることで、複雑なニューラルネットワークアーキテクチャに依存する技術アルゴリズムの状態を上回ります。
関連論文リスト
- Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - Value-Based Deep Multi-Agent Reinforcement Learning with Dynamic Sparse Training [38.03693752287459]
マルチエージェント強化学習(MARL)は、マルチエージェントシナリオにおいて、多数のパラメータを持つニューラルネットワークに依存している。
本稿では,動的スパーストレーニング(DST)の利用法を提案する。
本稿では,学習目標の信頼性とサンプル分布の合理性を同時に向上することを目的とした,革新的なマルチエージェントスパーストレーニング(MAST)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-28T15:57:24Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Uncovering cognitive taskonomy through transfer learning in masked autoencoder-based fMRI reconstruction [6.3348067441225915]
機能的磁気共鳴画像(fMRI)データを再構成するために,マスク付きオートエンコーダ(MAE)モデルを用いる。
本研究は,maEモデルを用いたfMRI再構成により,潜在表現の発見が可能であることを示唆する。
論文 参考訳(メタデータ) (2024-05-24T09:29:16Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。