論文の概要: Curriculum Learning for Relative Overgeneralization
- arxiv url: http://arxiv.org/abs/2212.02733v2
- Date: Mon, 15 May 2023 05:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 00:04:40.163244
- Title: Curriculum Learning for Relative Overgeneralization
- Title(参考訳): 相対的一般化のためのカリキュラム学習
- Authors: Lin Shi and Bei Peng
- Abstract要約: マルチエージェント強化学習(MARL)では、相対的オーバージェネリゼーション(RO)として知られる重要なマルチエージェント病理に多くの一般的な方法が受け入れられる。
ROは、最適関節作用の効用が協調作業における準最適関節作用の効力を下回ると生じる。
本稿では,相対オーバージェネリゼーション(CURO)のためのカリキュラム学習を提案し,ROを克服する。
- 参考スコア(独自算出の注目度): 10.30259249058635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), many popular methods, such as
VDN and QMIX, are susceptible to a critical multi-agent pathology known as
relative overgeneralization (RO), which arises when the optimal joint action's
utility falls below that of a sub-optimal joint action in cooperative tasks. RO
can cause the agents to get stuck into local optima or fail to solve
cooperative tasks that require significant coordination between agents within a
given timestep. Recent value-based MARL algorithms such as QPLEX and WQMIX can
overcome RO to some extent. However, our experimental results show that they
can still fail to solve cooperative tasks that exhibit strong RO. In this work,
we propose a novel approach called curriculum learning for relative
overgeneralization (CURO) to better overcome RO. To solve a target task that
exhibits strong RO, in CURO, we first fine-tune the reward function of the
target task to generate source tasks that are tailored to the current ability
of the learning agent and train the agent on these source tasks first. Then, to
effectively transfer the knowledge acquired in one task to the next, we use a
transfer learning method that combines value function transfer with buffer
transfer, which enables more efficient exploration in the target task. We
demonstrate that, when applied to QMIX, CURO overcomes severe RO problem and
significantly improves performance, yielding state-of-the-art results in a
variety of cooperative multi-agent tasks, including the challenging StarCraft
II micromanagement benchmarks.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では、VDNやQMIXのような多くの一般的な手法が、協調作業における最適関節動作の効用が準最適関節動作の効用より低い場合に生じる、相対的過一般化(RO)として知られる重要なマルチエージェントの病態に影響を受けやすい。
ROは、エージェントを局所的な最適状態に閉じ込めたり、特定の時間内でエージェント間の重要な調整を必要とする協調的なタスクの解決に失敗したりする。
QPLEXやWQMIXのような最近の値ベースのMARLアルゴリズムは、ROをある程度克服することができる。
しかし, 実験結果から, 強力なROを示す協調作業の解決に失敗する可能性が示唆された。
本研究では,相対的オーバージェネリゼーション(CURO)のためのカリキュラム学習という新しい手法を提案する。
強力なroを示す目標課題を解決するため、curoではまず対象課題の報酬関数を微調整し、学習エージェントの現在の能力に合わせて調整されたソースタスクを生成し、まずこれらのソースタスクでエージェントを訓練する。
そこで我々は,あるタスクにおいて得られた知識を効率よく次のタスクに転送するために,値関数転送とバッファ転送を組み合わせた伝達学習手法を用いて,目的タスクのより効率的な探索を可能にする。
QMIXに適用すると、CUROは深刻なRO問題を克服し、性能を著しく向上し、StarCraft IIマイクロマネジメントベンチマークを含む様々な協調型マルチエージェントタスクに最先端の結果をもたらすことが示される。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Reinforcement Learning with a Hierarchy of Reward Machines [5.600971575680638]
Reward Machines (RMs) を用いた協調型マルチエージェント強化学習(MARL)問題の検討
より複雑なシナリオを扱えるRM(MAHRM)階層のマルチエージェント強化学習を提案する。
3つの協調MARLドメインの実験結果から、MAHRMは、他のMARLメソッドよりも高いレベルの事象の事前知識の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-03-08T06:38:22Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。