論文の概要: Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks
- arxiv url: http://arxiv.org/abs/2112.02845v1
- Date: Mon, 6 Dec 2021 08:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:39:24.486065
- Title: Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks
- Title(参考訳): オフライン学習型マルチエージェント決定変換器:StarCraftIIタスクの1つの大きなシーケンスモデル
- Authors: Linghui Meng, Muning Wen, Yaodong Yang, Chenyang Le, Xiyun Li, Weinan
Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Bo Xu
- Abstract要約: オンラインの微調整によるオフライン事前トレーニングは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
オフライン学習に有効なマルチエージェント決定変換器(MADT)のアーキテクチャを提案する。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 43.588686040547486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning leverages static datasets to learn optimal
policies with no necessity to access the environment. This technique is
desirable for multi-agent learning tasks due to the expensiveness of agents'
online interactions and the demanding number of samples during training. Yet,
in multi-agent reinforcement learning (MARL), the paradigm of offline
pre-training with online fine-tuning has never been studied, nor datasets or
benchmarks for offline MARL research are available. In this paper, we try to
answer the question of whether offline pre-training in MARL is able to learn
generalisable policy representations that can help improve the performance of
multiple downstream tasks. We start by introducing the first offline MARL
dataset with diverse quality levels based on the StarCraftII environment, and
then propose the novel architecture of multi-agent decision transformer (MADT)
for effective offline learning. MADT leverages Transformer's modelling ability
of temporal representations and integrates it with both offline and online MARL
tasks. A crucial benefit of MADT is that it learns generalisable policies that
can transfer between different types of agents under different task scenarios.
When evaluated on StarCraft II offline dataset, MADT demonstrates superior
performance than state-of-the-art offline RL baselines. When applied to online
tasks, the pre-trained MADT significantly improves sample efficiency, and
enjoys strong performance even in zero-shot cases. To our best knowledge, this
is the first work that studies and demonstrates the effectiveness of offline
pre-trained models in terms of sample efficiency and generalisability
enhancements in MARL.
- Abstract(参考訳): オフライン強化学習は、静的データセットを利用して、環境にアクセスする必要なく最適なポリシーを学ぶ。
この手法は,エージェントのオンラインインタラクションの高価さや,トレーニング中のサンプル数の増加から,マルチエージェント学習タスクに好適である。
しかし、マルチエージェント強化学習(MARL)では、オンライン微調整によるオフライン事前トレーニングのパラダイムは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
本稿では,marlにおけるオフライン事前トレーニングが,複数のダウンストリームタスクのパフォーマンス向上に役立つ汎用的なポリシ表現を学習できるのか,という疑問に答える。
まず,starcraftii環境に基づいた多様な品質レベルを持つ最初のオフラインmarlデータセットを導入し,効果的なオフライン学習のためのマルチエージェント決定トランスフォーマー(madt)の新たなアーキテクチャを提案する。
MADTはTransformerの時間表現のモデリング機能を活用し、オフラインおよびオンラインのMARLタスクと統合する。
MADTの重要な利点は、異なるタスクシナリオの下で異なるタイプのエージェント間で転送できる一般的なポリシーを学ぶことである。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
オンラインタスクに適用すると、事前訓練されたmadtはサンプル効率を大幅に改善し、ゼロショットケースでも強力なパフォーマンスを享受できる。
私たちの知る限りでは,marlのサンプル効率と汎用性向上の観点から,オフライン事前トレーニングモデルの有効性を研究し,実証する最初の作業です。
関連論文リスト
- Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration [40.346958259814514]
逐次探索を用いたオフライン値関数メモリ(OVMSE)と呼ばれる新しいO2O MARLフレームワークを提案する。
まず、ターゲットQ値を計算するためのオフライン値関数メモリ(OVM)機構を導入し、オフライントレーニング中に得られた知識を保存する。
第2に,O2O MARLに適した分散型シークエンシャル・エクスプロレーション(SE)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-25T10:24:19Z) - Hybrid Training for Enhanced Multi-task Generalization in Multi-agent Reinforcement Learning [7.6201940008534175]
HyGenは、オンラインとオフラインの学習を統合し、マルチタスクの一般化とトレーニング効率の両立を保証する新しいハイブリッドMARLフレームワークである。
我々は、我々のフレームワークが一般的なスキルを効果的に抽出し、洗練し、目に見えないタスクに印象的な一般化をもたらすことを実証的に実証した。
論文 参考訳(メタデータ) (2024-08-24T12:37:03Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。