論文の概要: SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09058v1
- Date: Thu, 16 Mar 2023 03:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:53:53.452168
- Title: SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): SVDE:協調型マルチエージェント強化学習のためのスケーラブルな値分解探索
- Authors: Shuhan Qi, Shuhao Zhang, Qiang Wang, Jiajia Zhang, Jing Xiao, Xuan
Wang
- Abstract要約: 本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
- 参考スコア(独自算出の注目度): 22.389803019100423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-decomposition methods, which reduce the difficulty of a multi-agent
system by decomposing the joint state-action space into local
observation-action spaces, have become popular in cooperative multi-agent
reinforcement learning (MARL). However, value-decomposition methods still have
the problems of tremendous sample consumption for training and lack of active
exploration. In this paper, we propose a scalable value-decomposition
exploration (SVDE) method, which includes a scalable training mechanism,
intrinsic reward design, and explorative experience replay. The scalable
training mechanism asynchronously decouples strategy learning with
environmental interaction, so as to accelerate sample generation in a MapReduce
manner. For the problem of lack of exploration, an intrinsic reward design and
explorative experience replay are proposed, so as to enhance exploration to
produce diverse samples and filter non-novel samples, respectively.
Empirically, our method achieves the best performance on almost all maps
compared to other popular algorithms in a set of StarCraft II micromanagement
games. A data-efficiency experiment also shows the acceleration of SVDE for
sample collection and policy convergence, and we demonstrate the effectiveness
of factors in SVDE through a set of ablation experiments.
- Abstract(参考訳): 共同状態-作用空間を局所的な観測-作用空間に分解することでマルチエージェントシステムの難易度を下げる値分解法が,協調マルチエージェント強化学習(MARL)において普及している。
しかし, 値分解法には, トレーニング用試料の大量消費や, 活発な探査の欠如といった問題がある。
本稿では,スケーラブルなトレーニング機構,本質的報酬設計,探索的経験リプレイを含む,スケーラブルな価値分解探索(svde)手法を提案する。
スケーラブルなトレーニング機構は,mapreduce方式でサンプル生成を高速化するために,戦略学習と環境インタラクションを非同期に分離する。
探索の欠如に関する問題として,多様なサンプルを抽出し,非ノーベル標本をフィルタするために,本質的な報酬設計と爆発的体験の再現を提案する。
実験により,本手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
データ効率実験は,サンプル収集と政策収束のためのSVDEの加速を示すとともに,一連のアブレーション実験を通じてSVDEの因子の有効性を示す。
関連論文リスト
- Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling [2.501153467354696]
経験リプレイバッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
Q値推定に不確実性は含まない。
本稿では,探索・探索トレードオフを利用した新しいサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-24T18:55:41Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。