論文の概要: Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.09715v1
- Date: Mon, 15 Apr 2024 12:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:38:59.012020
- Title: Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning
- Title(参考訳): サンプル効率の良いマルチエージェント強化学習のための高速リプレイ比
- Authors: Linjie Xu, Zichuan Liu, Alexander Dockhorn, Diego Perez-Liebana, Jinyu Wang, Lei Song, Jiang Bian,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
広く使われているエピソードトレーニング機構は、サンプル効率の低下の原因となる可能性があると論じる。
既に収集したデータをよりよく活用するために,環境相互作用毎の勾配更新の頻度を高めることを提案する。
- 参考スコア(独自算出の注目度): 47.17030172520195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the notorious issues for Reinforcement Learning (RL) is poor sample efficiency. Compared to single agent RL, the sample efficiency for Multi-Agent Reinforcement Learning (MARL) is more challenging because of its inherent partial observability, non-stationary training, and enormous strategy space. Although much effort has been devoted to developing new methods and enhancing sample efficiency, we look at the widely used episodic training mechanism. In each training step, tens of frames are collected, but only one gradient step is made. We argue that this episodic training could be a source of poor sample efficiency. To better exploit the data already collected, we propose to increase the frequency of the gradient updates per environment interaction (a.k.a. Replay Ratio or Update-To-Data ratio). To show its generality, we evaluate $3$ MARL methods on $6$ SMAC tasks. The empirical results validate that a higher replay ratio significantly improves the sample efficiency for MARL algorithms. The codes to reimplement the results presented in this paper are open-sourced at https://anonymous.4open.science/r/rr_for_MARL-0D83/.
- Abstract(参考訳): 強化学習(RL)の悪名高い問題の1つは、サンプル効率の低下である。
単エージェントRLと比較して、MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
新たな手法の開発やサンプル効率の向上に多くの努力が注がれてきたが、広く使われているエピソードトレーニング機構について検討する。
各トレーニングステップでは、数十のフレームが収集されるが、1つのグラデーションステップのみが作成される。
このエピソードトレーニングはサンプル効率の低下の原因になり得ると我々は主張する。
既に収集されたデータをよりよく活用するために、環境相互作用毎の勾配更新の頻度(リプレイ率、更新データ比など)を上げることを提案する。
汎用性を示すため,6ドルのSMACタスクに対して3ドルMARL法を評価した。
実験結果から,MARLアルゴリズムのサンプリング効率は,高い再生率で著しく向上することが示された。
本論文で提示された結果を再実装するコードはhttps://anonymous.4open.science/r/rr_for_MARL-0D83/でオープンソース化されている。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control
via Sample Multiple Reuse [28.29966904455002]
固定されたサンプルバッチを複数回更新することで、外部のRLエージェントをトレーニングすることを提案する。
我々は,本手法のサンプル多重再利用(SMR)を命名し,SMRを用いたQ-ラーニングの特性を示す。
SMRは、評価されたタスクのほとんどにわたって、ベースメソッドのサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-29T03:25:22Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。