論文の概要: Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2108.12988v1
- Date: Mon, 30 Aug 2021 04:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:20:41.716358
- Title: Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning
- Title(参考訳): 多エージェント強化学習におけるエージェントの学習メタ表現
- Authors: Shenao Zhang, Li Shen, Lei Han, Li Shen
- Abstract要約: 多エージェント強化学習では、エージェントが単一のマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント数に制限される。
本研究は,人口変動型MGにまたがる汎用エージェントの開発に焦点をあてる。
本稿では,MRA(Meta Representations for Agents)を提案する。
- 参考スコア(独自算出の注目度): 16.90119502795247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning, the behaviors that agents learn in a
single Markov Game (MG) are typically confined to the given agent number (i.e.,
population size). Every single MG induced by varying population sizes may
possess distinct optimal joint strategies and game-specific knowledge, which
are modeled independently in modern multi-agent algorithms. In this work, we
focus on creating agents that generalize across population-varying MGs. Instead
of learning a unimodal policy, each agent learns a policy set that is formed by
effective strategies across a variety of games. We propose Meta Representations
for Agents (MRA) that explicitly models the game-common and game-specific
strategic knowledge. By representing the policy sets with multi-modal latent
policies, the common strategic knowledge and diverse strategic modes are
discovered with an iterative optimization procedure. We prove that as an
approximation to a constrained mutual information maximization objective, the
learned policies can reach Nash Equilibrium in every evaluation MG under the
assumption of Lipschitz game on a sufficiently large latent space. When
deploying it at practical latent models with limited size, fast adaptation can
be achieved by leveraging the first-order gradient information. Extensive
experiments show the effectiveness of MRA on both training performance and
generalization ability in hard and unseen games.
- Abstract(参考訳): マルチエージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する行動は通常、与えられたエージェント数(すなわち人口規模)に制限される。
様々な集団サイズで誘導されるすべてのMGは、現代のマルチエージェントアルゴリズムで独立してモデル化される、最適なジョイント戦略とゲーム固有の知識を持っている。
本研究は,人口変動型mgsを一般化するエージェントの開発に焦点をあてる。
一人称ポリシーを学ぶ代わりに、各エージェントは様々なゲームにまたがる効果的な戦略によって形成されたポリシーセットを学ぶ。
ゲーム共通およびゲーム固有の戦略知識を明示的にモデル化するエージェント(mra)のメタ表現を提案する。
ポリシーセットをマルチモーダル潜在ポリシーで表現することにより、共通戦略知識と多様な戦略モードが反復的な最適化手順で発見される。
制約付き相互情報最大化目標の近似として,学習方針が十分大きな潜在空間上のリプシッツゲーム(英語版)の仮定の下で評価mgごとにnash平衡に達することを証明した。
最小サイズで実用的な潜在モデルにデプロイする場合、一階勾配情報を活用することで高速適応が実現できる。
広汎な実験は、ハードゲームとアンロックゲームにおいて、トレーニング性能と一般化能力の両方にMRAの有効性を示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。