論文の概要: Imitation Learning of Correlated Policies in Stackelberg Games
- arxiv url: http://arxiv.org/abs/2503.08883v2
- Date: Sun, 16 Mar 2025 17:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:39.307526
- Title: Imitation Learning of Correlated Policies in Stackelberg Games
- Title(参考訳): Stackelberg Gamesにおける関連ポリシーの模倣学習
- Authors: Kuang-Da Wang, Ping-Chun Hsieh, Wen-Chih Peng,
- Abstract要約: Stackelbergゲームは、リーダーの戦略がフォロワーの反応を駆動する非対称な相互作用を含む。
多エージェントシステムではエージェントの動作は相互依存的であり、従来のマルチエージェント・イミテーション・ラーニング(MAIL)手法は複雑な相互作用を捉えるのに失敗することが多い。
そこで本稿では,Stackelbergゲーム用に特別に設計されたポリシ占有率の相関式を提案し,それに対応するためにLatent Stackelberg Differential Network (LSDN)を提案する。
- 参考スコア(独自算出の注目度): 17.026813111994443
- License:
- Abstract: Stackelberg games, widely applied in domains like economics and security, involve asymmetric interactions where a leader's strategy drives follower responses. Accurately modeling these dynamics allows domain experts to optimize strategies in interactive scenarios, such as turn-based sports like badminton. In multi-agent systems, agent behaviors are interdependent, and traditional Multi-Agent Imitation Learning (MAIL) methods often fail to capture these complex interactions. Correlated policies, which account for opponents' strategies, are essential for accurately modeling such dynamics. However, even methods designed for learning correlated policies, like CoDAIL, struggle in Stackelberg games due to their asymmetric decision-making, where leaders and followers cannot simultaneously account for each other's actions, often leading to non-correlated policies. Furthermore, existing MAIL methods that match occupancy measures or use adversarial techniques like GAIL or Inverse RL face scalability challenges, particularly in high-dimensional environments, and suffer from unstable training. To address these challenges, we propose a correlated policy occupancy measure specifically designed for Stackelberg games and introduce the Latent Stackelberg Differential Network (LSDN) to match it. LSDN models two-agent interactions as shared latent state trajectories and uses multi-output Geometric Brownian Motion (MO-GBM) to effectively capture joint policies. By leveraging MO-GBM, LSDN disentangles environmental influences from agent-driven transitions in latent space, enabling the simultaneous learning of interdependent policies. This design eliminates the need for adversarial training and simplifies the learning process. Extensive experiments on Iterative Matrix Games and multi-agent particle environments demonstrate that LSDN can better reproduce complex interaction dynamics than existing MAIL methods.
- Abstract(参考訳): Stackelbergのゲームは、経済学やセキュリティといった分野に広く適用されており、リーダーの戦略が追従者の反応を駆動する非対称な相互作用を含んでいる。
これらのダイナミクスを正確にモデリングすることで、ドメインの専門家はバドミントンのようなターンベースのスポーツのような対話的なシナリオにおける戦略を最適化できる。
多エージェントシステムではエージェントの動作は相互依存的であり、従来のマルチエージェント・イミテーション・ラーニング(MAIL)手法は複雑な相互作用を捉えるのに失敗することが多い。
相手の戦略を考慮に入れた関連ポリシーは、そのようなダイナミクスを正確にモデル化するのに不可欠である。
しかし、CoDAILのような相関ポリシーを学ぶために設計された方法でさえ、リーダーとフォロワーが同時に互いの行動を説明できない非対称な意思決定のために、スタックルバーグのゲームで苦労している。
さらに,GAIL や Inverse RL など,占領対策に適合する既存の MAIL 手法は,特に高次元環境においてスケーラビリティ上の課題に直面し,不安定なトレーニングに悩まされている。
これらの課題に対処するために,Stackelbergゲーム用に特別に設計された相関ポリシー占有度尺度を提案し,それに対応するためにLatent Stackelberg Differential Network (LSDN)を導入する。
LSDNは2エージェントの相互作用を共有潜在状態軌跡としてモデル化し、複数出力の幾何学的ブラウン運動(MO-GBM)を用いて共同ポリシーを効果的に取得する。
MO-GBMを活用することで、LSDNはエージェント駆動の遷移から環境の影響を分散させ、相互依存ポリシーの同時学習を可能にする。
この設計は、敵対的な訓練の必要性を排除し、学習プロセスを単純化する。
反復行列ゲームとマルチエージェント粒子環境に関する大規模な実験により、LSDNは既存のMAIL法よりも複雑な相互作用のダイナミクスを再現できることを示した。
関連論文リスト
- Ranking Joint Policies in Dynamic Games using Evolutionary Dynamics [0.0]
単純な2プレイヤーゲームでもエージェントの相互作用のダイナミクスはナッシュ平衡に達することができないことが示されている。
我々のゴールは、安定した行動をもたらすエージェントの合同戦略を特定し、変化に抵抗すると同時に、エージェントの支払いも考慮することである。
論文 参考訳(メタデータ) (2025-02-20T16:50:38Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Cluster-Based Social Reinforcement Learning [16.821802372973004]
ソーシャル強化学習法は、偽ニュースの緩和、パーソナライズされた教育・医療、バイラルマーケティングに有用である。
ネットワークサイズと疎結合データのために、エージェント間の依存関係をモデルに効果的に組み込むことは困難である。
従来のソーシャルRLアプローチは、エージェント依存を無視したり、計算集約的な方法でそれらをモデル化する。
論文 参考訳(メタデータ) (2020-03-02T01:55:05Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。