論文の概要: Conditional Imitation Learning for Multi-Agent Games
- arxiv url: http://arxiv.org/abs/2201.01448v1
- Date: Wed, 5 Jan 2022 04:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:34:34.449002
- Title: Conditional Imitation Learning for Multi-Agent Games
- Title(参考訳): マルチエージェントゲームのための条件付き模倣学習
- Authors: Andy Shih and Stefano Ermon and Dorsa Sadigh
- Abstract要約: 本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
- 参考スコア(独自算出の注目度): 89.897635970366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While advances in multi-agent learning have enabled the training of
increasingly complex agents, most existing techniques produce a final policy
that is not designed to adapt to a new partner's strategy. However, we would
like our AI agents to adjust their strategy based on the strategies of those
around them. In this work, we study the problem of conditional multi-agent
imitation learning, where we have access to joint trajectory demonstrations at
training time, and we must interact with and adapt to new partners at test
time. This setting is challenging because we must infer a new partner's
strategy and adapt our policy to that strategy, all without knowledge of the
environment reward or dynamics. We formalize this problem of conditional
multi-agent imitation learning, and propose a novel approach to address the
difficulties of scalability and data scarcity. Our key insight is that
variations across partners in multi-agent games are often highly structured,
and can be represented via a low-rank subspace. Leveraging tools from tensor
decomposition, our model learns a low-rank subspace over ego and partner agent
strategies, then infers and adapts to a new partner strategy by interpolating
in the subspace. We experiments with a mix of collaborative tasks, including
bandits, particle, and Hanabi environments. Additionally, we test our
conditional policies against real human partners in a user study on the
Overcooked game. Our model adapts better to new partners compared to baselines,
and robustly handles diverse settings ranging from discrete/continuous actions
and static/online evaluation with AI/human partners.
- Abstract(参考訳): マルチエージェント学習の進歩により、ますます複雑なエージェントのトレーニングが可能になる一方で、既存の技術の多くは、新しいパートナーの戦略に適応するように設計されていない最終的なポリシーを生み出している。
しかし、私たちのAIエージェントは、周囲の戦略に基づいて戦略を調整することを望んでいます。
本研究では、条件付きマルチエージェント模倣学習の課題について検討し、トレーニング時に共同軌道デモにアクセスでき、テスト時に新しいパートナーと対話し、適応する必要がある。
この設定は、新しいパートナーの戦略を推測し、その戦略にポリシーを適用する必要があるため、環境報酬やダイナミクスの知識がなければ、難しい。
本稿では,条件付きマルチエージェント模倣学習の問題を定式化し,スケーラビリティとデータ不足の難しさに対処するための新しい手法を提案する。
私たちの重要な洞察は、マルチエージェントゲームにおけるパートナー間のバリエーションは、しばしば高度に構造化され、低ランクサブスペースを介して表現できるということです。
テンソル分解からツールを活用することで,egoおよびパートナーエージェント戦略よりも低ランクのサブスペースを学習し,サブスペースを補間することにより,新たなパートナー戦略を推論し,適応する。
我々は,包帯,粒子およびハナビ環境を含む協調作業の混合実験を行った。
さらに,オーバークッキングゲームにおけるユーザスタディにおいて,実際の人間パートナーに対する条件付きポリシーをテストする。
我々のモデルは、ベースラインよりも新しいパートナに適応し、個別/連続的なアクションからAI/ヒューマンパートナーによる静的/オンライン評価まで、さまざまな設定を堅牢に処理します。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。