論文の概要: Diverse Conventions for Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2310.15414v1
- Date: Tue, 24 Oct 2023 00:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:09:02.547327
- Title: Diverse Conventions for Human-AI Collaboration
- Title(参考訳): 人間とAIのコラボレーションに関する諸条約
- Authors: Bidipta Sarkar and Andy Shih and Dorsa Sadigh
- Abstract要約: コンベンションは、協調型マルチエージェントゲームにおける強力なパフォーマンスに不可欠である。
標準的な強化学習技術は、任意で非多変数の慣習に収束する。
本稿では,自己演奏時の報酬を最大化することにより,多様な慣習を創出する手法を提案する。
我々の技術は人間の慣行に適応し、実際のユーザとペアリングした場合、人間レベルのパフォーマンスを上回ることが分かりました。
- 参考スコア(独自算出の注目度): 35.82096421305207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventions are crucial for strong performance in cooperative multi-agent
games, because they allow players to coordinate on a shared strategy without
explicit communication. Unfortunately, standard multi-agent reinforcement
learning techniques, such as self-play, converge to conventions that are
arbitrary and non-diverse, leading to poor generalization when interacting with
new partners. In this work, we present a technique for generating diverse
conventions by (1) maximizing their rewards during self-play, while (2)
minimizing their rewards when playing with previously discovered conventions
(cross-play), stimulating conventions to be semantically different. To ensure
that learned policies act in good faith despite the adversarial optimization of
cross-play, we introduce \emph{mixed-play}, where an initial state is randomly
generated by sampling self-play and cross-play transitions and the player
learns to maximize the self-play reward from this initial state. We analyze the
benefits of our technique on various multi-agent collaborative games, including
Overcooked, and find that our technique can adapt to the conventions of humans,
surpassing human-level performance when paired with real users.
- Abstract(参考訳): コンベンションは、プレイヤーが明示的なコミュニケーションなしに共有戦略で協調できるため、協調マルチエージェントゲームにおける強力なパフォーマンスに不可欠である。
残念ながら、セルフプレイのような標準的なマルチエージェント強化学習技術は、任意で非多様性の慣習に収束し、新しいパートナーと対話する際には一般化が不十分になる。
本研究は,(1)自己プレイ中の報酬を最大化し,(2)発見済みの規約(クロスプレイ)で遊ぶ際の報酬を最小化し,意味的に異なる規約を刺激することにより,多様な慣習を生成する手法を提案する。
クロスプレイの逆最適化に拘わらず,学習した政策が忠実に振る舞うようにするために,自己プレイとクロスプレイの遷移をサンプリングして初期状態をランダムに生成し,この初期状態から自己プレイの報酬を最大化することを学習する「emph{mixed-play}」を導入する。
我々は,Overcookedを含む様々なマルチエージェント協調ゲームにおける手法の利点を分析し,本手法が実際のユーザとペアリングした場合の人間レベルのパフォーマンスを越えながら,人間の慣行に適応できることを見出した。
関連論文リスト
- Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。