論文の概要: Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration
- arxiv url: http://arxiv.org/abs/2410.19450v1
- Date: Fri, 25 Oct 2024 10:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:46.026811
- Title: Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration
- Title(参考訳): オフライン値関数記憶と逐次探索を用いたオフラインからオンラインへのマルチエージェント強化学習
- Authors: Hai Zhong, Xun Wang, Zhuoran Li, Longbo Huang,
- Abstract要約: 逐次探索を用いたオフライン値関数メモリ(OVMSE)と呼ばれる新しいO2O MARLフレームワークを提案する。
まず、ターゲットQ値を計算するためのオフライン値関数メモリ(OVM)機構を導入し、オフライントレーニング中に得られた知識を保存する。
第2に,O2O MARLに適した分散型シークエンシャル・エクスプロレーション(SE)戦略を提案する。
- 参考スコア(独自算出の注目度): 40.346958259814514
- License:
- Abstract: Offline-to-Online Reinforcement Learning has emerged as a powerful paradigm, leveraging offline data for initialization and online fine-tuning to enhance both sample efficiency and performance. However, most existing research has focused on single-agent settings, with limited exploration of the multi-agent extension, i.e., Offline-to-Online Multi-Agent Reinforcement Learning (O2O MARL). In O2O MARL, two critical challenges become more prominent as the number of agents increases: (i) the risk of unlearning pre-trained Q-values due to distributional shifts during the transition from offline-to-online phases, and (ii) the difficulty of efficient exploration in the large joint state-action space. To tackle these challenges, we propose a novel O2O MARL framework called Offline Value Function Memory with Sequential Exploration (OVMSE). First, we introduce the Offline Value Function Memory (OVM) mechanism to compute target Q-values, preserving knowledge gained during offline training, ensuring smoother transitions, and enabling efficient fine-tuning. Second, we propose a decentralized Sequential Exploration (SE) strategy tailored for O2O MARL, which effectively utilizes the pre-trained offline policy for exploration, thereby significantly reducing the joint state-action space to be explored. Extensive experiments on the StarCraft Multi-Agent Challenge (SMAC) demonstrate that OVMSE significantly outperforms existing baselines, achieving superior sample efficiency and overall performance.
- Abstract(参考訳): オフラインからオンラインへの強化学習は、初期化のためのオフラインデータとオンラインファインチューニングを活用して、サンプル効率とパフォーマンスの両方を向上させる強力なパラダイムとして登場した。
しかし、既存のほとんどの研究は単一エージェント設定に焦点を当てており、マルチエージェント拡張、すなわちオフラインからオンラインへのマルチエージェント強化学習(O2O MARL)を限定的に探索している。
O2O MARLでは、エージェントの数が増えるにつれて、2つの重要な課題が顕著になる。
(i)オフラインからオンラインへの移行に伴う分布変化による事前学習Q値の未学習リスク、及び
(II)大共同状態運動空間における効率的な探索の難しさ。
これらの課題に対処するために、O2O MARLフレームワークであるO2O MARL(OVMSE)を提案する。
まず、ターゲットQ値の計算、オフライントレーニング中に得られた知識の保存、スムーズな遷移の確保、効率的な微調整を可能にするオフライン値関数メモリ(OVM)機構を導入する。
第2に,O2O MARLに適した分散型シーケンス探索(SE)戦略を提案する。
StarCraft Multi-Agent Challenge (SMAC)の大規模な実験は、OVMSEが既存のベースラインを著しく上回り、より優れたサンプル効率と全体的なパフォーマンスを実現していることを示している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty
and Smoothness [11.903893267037061]
offline-to-online (O2O) RLは、限られたオンラインインタラクション内でオフライントレーニングエージェントを改善するためのパラダイムを提供する。
ほとんどのオフラインRLアルゴリズムは性能低下に悩まされ、O2O適応の安定なポリシー改善を達成できなかった。
本稿では,不確実性と滑らか性によるオフラインポリシーの強化を目的としたRobost Offline-to-Online (RO2O)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-29T04:42:50Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - A Simple Unified Uncertainty-Guided Framework for Offline-to-Online
Reinforcement Learning [25.123237633748193]
オフラインからオンラインへの強化学習は、制約された探索行動と状態-行動分布シフトのために困難である。
両課題の解決を不確実性ツールで統一する,シンプルな統一uNcertainty-Guided (SUNG) フレームワークを提案する。
SUNGは、さまざまなオフラインRLメソッドと組み合わせることで、最先端のオンラインファインタニング性能を実現する。
論文 参考訳(メタデータ) (2023-06-13T05:22:26Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks [43.588686040547486]
オンラインの微調整によるオフライン事前トレーニングは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
オフライン学習に有効なマルチエージェント決定変換器(MADT)のアーキテクチャを提案する。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-06T08:11:05Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。