論文の概要: Stackelberg Games for Learning Emergent Behaviors During Competitive
Autocurricula
- arxiv url: http://arxiv.org/abs/2305.03735v1
- Date: Thu, 4 May 2023 19:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:52:08.109299
- Title: Stackelberg Games for Learning Emergent Behaviors During Competitive
Autocurricula
- Title(参考訳): 競争的オートカーキュラにおける創発的行動学習のためのstackelbergゲーム
- Authors: Boling Yang, Liyuan Zheng, Lillian J. Ratliff, Byron Boots, Joshua R.
Smith
- Abstract要約: 本稿では,新たなゲーム理論アルゴリズムであるStackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG)を提案する。
マルチプレイヤーのMARL問題をスタックルバーグゲームとして定式化し、1人のプレイヤーをリーダーとして、もう1人のプレイヤーを従者として、階層的な相互作用構造においてリーダーが有利である。
リーダーの利点を活用することで、ST-MADDPGは共進化プロセスの品質を改善し、目に見えない強力な相手に対してさえうまく機能するより洗練された複雑な戦略をもたらす。
- 参考スコア(独自算出の注目度): 35.88217121803472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autocurricular training is an important sub-area of multi-agent reinforcement
learning~(MARL) that allows multiple agents to learn emergent skills in an
unsupervised co-evolving scheme. The robotics community has experimented
autocurricular training with physically grounded problems, such as robust
control and interactive manipulation tasks. However, the asymmetric nature of
these tasks makes the generation of sophisticated policies challenging. Indeed,
the asymmetry in the environment may implicitly or explicitly provide an
advantage to a subset of agents which could, in turn, lead to a low-quality
equilibrium. This paper proposes a novel game-theoretic algorithm, Stackelberg
Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG), which formulates a
two-player MARL problem as a Stackelberg game with one player as the `leader'
and the other as the `follower' in a hierarchical interaction structure wherein
the leader has an advantage. We first demonstrate that the leader's advantage
from ST-MADDPG can be used to alleviate the inherent asymmetry in the
environment. By exploiting the leader's advantage, ST-MADDPG improves the
quality of a co-evolution process and results in more sophisticated and complex
strategies that work well even against an unseen strong opponent.
- Abstract(参考訳): オートキュラートレーニングはマルチエージェント強化学習(MARL)の重要なサブ領域であり、複数のエージェントが教師なしの共同進化スキームで創発的スキルを学ぶことができる。
ロボティクスコミュニティは、堅牢な制御や対話的な操作タスクなど、物理的に根拠のある問題でオートクルトレーニングを実験してきた。
しかし、これらのタスクの非対称性は、洗練されたポリシーの生成を困難にする。
実際、環境の非対称性は暗黙的または明示的にエージェントのサブセットに利点を与え、結果として低品質な平衡をもたらす可能性がある。
本稿では,マルチエージェント・ディープ・決定論的政策勾配 (st-maddpg) という新しいゲーム理論アルゴリズムを提案する。このアルゴリズムは2人のプレイヤーのマール問題を,1人のプレイヤーが「リーダー」,もう1人が「追従者」として,リーダーが有利な階層的相互作用構造においてスタックルバーグゲームとして定式化する。
まず,ST-MADDPGによるリーダの優位性を環境内固有の非対称性を軽減するために有効であることを示す。
リーダーの利点を活用することで、ST-MADDPGは共進化プロセスの品質を改善し、目に見えない強力な相手に対してさえうまく機能するより洗練された複雑な戦略をもたらす。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - MAESTRO: Open-Ended Environment Design for Multi-Agent Reinforcement
Learning [22.28076947612619]
オープンエンドラーニングのためのマルチエージェント環境設計ストラテジスト(MAESTRO)を紹介する。
MAESTROは、2プレイヤーゼロサム設定のための最初のマルチエージェントUEDアプローチである。
実験の結果,MAESTROは,対戦型2プレーヤゲームにおいて,強力なベースラインを達成していることがわかった。
論文 参考訳(メタデータ) (2023-03-06T18:57:41Z) - Towards Skilled Population Curriculum for Multi-Agent Reinforcement
Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。
具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。
また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文 参考訳(メタデータ) (2023-02-07T12:30:52Z) - TransfQMix: Transformers for Leveraging the Graph Structure of
Multi-Agent Reinforcement Learning Problems [0.0]
TransfQMixは、トランスフォーマーを使用して潜在グラフ構造を活用し、より良いコーディネーションポリシーを学習する新しいアプローチである。
我々の変換器Q-mixerは、エージェントの内部状態と外部状態を含む大きなグラフから単調混合関数を学習する。
本稿では,TransfQMixのSpreadおよびStarCraft II環境における性能について報告する。
論文 参考訳(メタデータ) (2023-01-13T00:07:08Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。