論文の概要: SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09058v1
- Date: Thu, 16 Mar 2023 03:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:53:53.452168
- Title: SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): SVDE:協調型マルチエージェント強化学習のためのスケーラブルな値分解探索
- Authors: Shuhan Qi, Shuhao Zhang, Qiang Wang, Jiajia Zhang, Jing Xiao, Xuan
Wang
- Abstract要約: 本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
- 参考スコア(独自算出の注目度): 22.389803019100423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value-decomposition methods, which reduce the difficulty of a multi-agent
system by decomposing the joint state-action space into local
observation-action spaces, have become popular in cooperative multi-agent
reinforcement learning (MARL). However, value-decomposition methods still have
the problems of tremendous sample consumption for training and lack of active
exploration. In this paper, we propose a scalable value-decomposition
exploration (SVDE) method, which includes a scalable training mechanism,
intrinsic reward design, and explorative experience replay. The scalable
training mechanism asynchronously decouples strategy learning with
environmental interaction, so as to accelerate sample generation in a MapReduce
manner. For the problem of lack of exploration, an intrinsic reward design and
explorative experience replay are proposed, so as to enhance exploration to
produce diverse samples and filter non-novel samples, respectively.
Empirically, our method achieves the best performance on almost all maps
compared to other popular algorithms in a set of StarCraft II micromanagement
games. A data-efficiency experiment also shows the acceleration of SVDE for
sample collection and policy convergence, and we demonstrate the effectiveness
of factors in SVDE through a set of ablation experiments.
- Abstract(参考訳): 共同状態-作用空間を局所的な観測-作用空間に分解することでマルチエージェントシステムの難易度を下げる値分解法が,協調マルチエージェント強化学習(MARL)において普及している。
しかし, 値分解法には, トレーニング用試料の大量消費や, 活発な探査の欠如といった問題がある。
本稿では,スケーラブルなトレーニング機構,本質的報酬設計,探索的経験リプレイを含む,スケーラブルな価値分解探索(svde)手法を提案する。
スケーラブルなトレーニング機構は,mapreduce方式でサンプル生成を高速化するために,戦略学習と環境インタラクションを非同期に分離する。
探索の欠如に関する問題として,多様なサンプルを抽出し,非ノーベル標本をフィルタするために,本質的な報酬設計と爆発的体験の再現を提案する。
実験により,本手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
データ効率実験は,サンプル収集と政策収束のためのSVDEの加速を示すとともに,一連のアブレーション実験を通じてSVDEの因子の有効性を示す。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer
Sampling [2.501153467354696]
経験リプレイバッファのための最先端サンプリング戦略は強化学習エージェントの性能を向上させる。
Q値推定に不確実性は含まない。
本稿では,探索・探索トレードオフを利用した新しいサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-24T18:55:41Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。