論文の概要: Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2108.12988v3
- Date: Mon, 5 Jun 2023 09:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 06:01:18.605502
- Title: Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning
- Title(参考訳): 多エージェント強化学習におけるエージェントの学習メタ表現
- Authors: Shenao Zhang, Li Shen, Lei Han, Li Shen
- Abstract要約: 多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
- 参考スコア(独自算出の注目度): 12.170248966278281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning, the behaviors that agents learn in a
single Markov Game (MG) are typically confined to the given agent number. Every
single MG induced by varying the population may possess distinct optimal joint
strategies and game-specific knowledge, which are modeled independently in
modern multi-agent reinforcement learning algorithms. In this work, our focus
is on creating agents that can generalize across population-varying MGs.
Instead of learning a unimodal policy, each agent learns a policy set
comprising effective strategies across a variety of games. To achieve this, we
propose Meta Representations for Agents (MRA) that explicitly models the
game-common and game-specific strategic knowledge. By representing the policy
sets with multi-modal latent policies, the game-common strategic knowledge and
diverse strategic modes are discovered through an iterative optimization
procedure. We prove that by approximately maximizing the resulting constrained
mutual information objective, the policies can reach Nash Equilibrium in every
evaluation MG when the latent space is sufficiently large. When deploying MRA
in practical settings with limited latent space sizes, fast adaptation can be
achieved by leveraging the first-order gradient information. Extensive
experiments demonstrate the effectiveness of MRA in improving training
performance and generalization ability in challenging evaluation games.
- Abstract(参考訳): マルチエージェント強化学習では、エージェントが単一のマルコフゲーム(mg)で学習する行動は通常、与えられたエージェント番号に限定される。
個体数の変化によって引き起こされるすべてのmgは、異なる最適ジョイント戦略とゲーム固有の知識を持ち、それらは現代のマルチエージェント強化学習アルゴリズムで独立にモデル化される。
本研究では,人口変動型mgsを一般化するエージェントの開発に焦点をあてる。
各エージェントは、ユニモーダルポリシーを学ぶ代わりに、さまざまなゲームで効果的な戦略からなるポリシーセットを学習する。
これを実現するために,ゲーム共通およびゲーム固有の戦略知識を明示的にモデル化するエージェント(mra)のメタ表現を提案する。
ポリシーセットをマルチモーダル潜在ポリシーで表現することにより、ゲーム共通戦略知識と多様な戦略モードが反復最適化手順によって発見される。
結果の制約付き相互情報目標を概ね最大化することにより,潜在空間が十分大きい場合,評価mgごとにnash平衡に達することを実証する。
遅延空間サイズが制限された実用的な設定でMRAをデプロイする場合、一階勾配情報を活用することで高速適応を実現することができる。
広範囲な実験により,mraが評価ゲームにおけるトレーニング性能と一般化能力の向上に有効性を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。