論文の概要: Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2306.03034v2
- Date: Sun, 7 Jan 2024 16:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 23:50:45.437109
- Title: Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination
- Title(参考訳): ゼロショットHuman-AIコーディネーションのための協調的不整合処理
- Authors: Yang Li, Shao Zhang, Jichen Sun, Wenhao Zhang, Yali Du, Ying Wen,
Xinbing Wang, Wei Pan
- Abstract要約: 協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
- 参考スコア(独自算出の注目度): 36.33334853998621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Securing coordination between AI agent and teammates (human players or AI
agents) in contexts involving unfamiliar humans continues to pose a significant
challenge in Zero-Shot Coordination. The issue of cooperative incompatibility
becomes particularly prominent when an AI agent is unsuccessful in
synchronizing with certain previously unknown partners. Traditional algorithms
have aimed to collaborate with partners by optimizing fixed objectives within a
population, fostering diversity in strategies and behaviors. However, these
techniques may lead to learning loss and an inability to cooperate with
specific strategies within the population, a phenomenon named cooperative
incompatibility in learning. In order to solve cooperative incompatibility in
learning and effectively address the problem in the context of ZSC, we
introduce the Cooperative Open-ended LEarning (COLE) framework, which
formulates open-ended objectives in cooperative games with two players using
perspectives of graph theory to evaluate and pinpoint the cooperative capacity
of each strategy. We present two practical algorithms, specifically \algo and
\algoR, which incorporate insights from game theory and graph theory. We also
show that COLE could effectively overcome the cooperative incompatibility from
theoretical and empirical analysis. Subsequently, we created an online
Overcooked human-AI experiment platform, the COLE platform, which enables easy
customization of questionnaires, model weights, and other aspects. Utilizing
the COLE platform, we enlist 130 participants for human experiments. Our
findings reveal a preference for our approach over state-of-the-art methods
using a variety of subjective metrics. Moreover, objective experimental
outcomes in the Overcooked game environment indicate that our method surpasses
existing ones when coordinating with previously unencountered AI agents and the
human proxy model.
- Abstract(参考訳): AIエージェントとチームメイト(人間プレイヤーまたはAIエージェント)の協調を、馴染みのない人間を含む文脈で確保することは、ゼロショットコーディネーションにおいて重要な課題である。
aiエージェントが特定の未知のパートナーとの同期に失敗した場合、協調的非互換性の問題は特に顕著になる。
従来のアルゴリズムは、集団内の固定目標を最適化し、戦略や行動の多様性を育み、パートナーと協力することを目的としていた。
しかし、これらの手法は、学習の損失と、集団内の特定の戦略と協調できないことにつながる可能性がある。
学習における協調的非互換性を解消し、zscの文脈でこの問題を効果的に解決するために、各戦略の協調能力を評価するために、グラフ理論の視点を用いて、2人のプレイヤーと協調ゲームにおける開放的目標を定式化した協調的開放学習(cole)フレームワークを導入する。
本稿では,ゲーム理論とグラフ理論の洞察を取り入れた2つの実用的なアルゴリズム,特に \algo と \algoR を提案する。
また,COLEは理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
続いて,質問票やモデル重み付け,その他の面を簡単にカスタマイズ可能な,人間-ai実験プラットフォームであるcole platformを開発した。
coleプラットフォームを利用して,130名の参加者を人間実験に参加させる。
本研究は,種々の主観的指標を用いた最先端手法に対するアプローチの好みを明らかにする。
さらに,オーバークッキングゲーム環境における客観的な実験結果から,従来のAIエージェントやヒューマンプロキシモデルとの協調作業において,本手法が既存手法を上回ることが示唆された。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - Cooperative Open-ended Learning Framework for Zero-shot Coordination [35.330951448600594]
本研究では,2人のプレーヤーによる協調ゲームにおいて,オープンエンドの目標を構築するための枠組みを提案する。
また,ゲーム理論やグラフ理論からの知識を活用する実用的なアルゴリズムを提案する。
本手法は,異なるレベルのパートナーとコーディネートする場合に,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-02-09T18:37:04Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Coordination with Humans via Strategy Matching [5.072077366588174]
協調作業を行う人間と人間のチームを観察することにより、利用可能なタスク補完戦略を自律的に認識するアルゴリズムを提案する。
隠れマルコフモデルを使って、チームアクションを低次元の表現に変換することで、事前の知識なしに戦略を識別できます。
ロボットポリシーは、未確認のパートナーのタスク戦略に適応するMixture-of-Expertsモデルを構築するための、識別された戦略のそれぞれに基づいて学習される。
論文 参考訳(メタデータ) (2022-10-27T01:00:50Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Cooperative Control of Mobile Robots with Stackelberg Learning [63.99843063704676]
マルチロボットの協力は、エージェントが共通の目標に整合性を持たなければならない。
協調制御におけるスタックルバーグ学習という手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T07:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。