論文の概要: Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2306.03034v1
- Date: Mon, 5 Jun 2023 16:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:42:56.173163
- Title: Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination
- Title(参考訳): ゼロショットHuman-AIコーディネーションのための協調的不整合処理
- Authors: Yang Li, Shao Zhang, Jichen Sun, Wenhao Zhang, Yali Du, Ying Wen,
Xinbing Wang, Wei Pan
- Abstract要約: Zero-Shot Human-AI Coordinationは、これまで知らなかった人間のチームメイトと効率的に連携できるAIエージェントを開発することを目的としている。
従来のアルゴリズムは、集団内で固定された目的を最適化することで、人間と協調することを目的としていた。
協調的なオープンエンド学習フレームワークは、2人のプレーヤーとの共同ゲームにおいてオープンエンドの目的を定式化する。
- 参考スコア(独自算出の注目度): 39.139672052421844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving coordination between humans and artificial intelligence in
scenarios involving previously unencountered humans remains a substantial
obstacle within Zero-Shot Human-AI Coordination, which aims to develop AI
agents capable of efficiently working alongside previously unknown human
teammates. Traditional algorithms have aimed to collaborate with humans by
optimizing fixed objectives within a population, fostering diversity in
strategies and behaviors. However, these techniques may lead to learning loss
and an inability to cooperate with specific strategies within the population, a
phenomenon named cooperative incompatibility. To mitigate this issue, we
introduce the Cooperative Open-ended LEarning (COLE) framework, which
formulates open-ended objectives in cooperative games with two players using
perspectives of graph theory to evaluate and pinpoint the cooperative capacity
of each strategy. We put forth a practical algorithm incorporating insights
from game theory and graph theory, e.g., Shapley Value and Centrality. We also
show that COLE could effectively overcome the cooperative incompatibility from
theoretical and empirical analysis. Subsequently, we created an online
Overcooked human-AI experiment platform, the COLE platform, which enables easy
customization of questionnaires, model weights, and other aspects. Utilizing
the COLE platform, we enlist 130 participants for human experiments. Our
findings reveal a preference for our approach over state-of-the-art methods
using a variety of subjective metrics. Moreover, objective experimental
outcomes in the Overcooked game environment indicate that our method surpasses
existing ones when coordinating with previously unencountered AI agents and the
human proxy model. Our code and demo are publicly available at
https://sites.google.com/view/cole-2023.
- Abstract(参考訳): 人間と人工知能の協調を実現することは、これまで知られていなかったチームメイトと効率的に連携できるAIエージェントを開発することを目的としたゼロショットヒューマンAIコーディネーションにおいて、依然として大きな障害となっている。
従来のアルゴリズムは、集団内の固定された目的を最適化し、戦略や行動の多様性を育み、人間と協調することを目的としていた。
しかし、これらの技術は、学習の損失と、集団内の特定の戦略に協力できないことにつながる可能性がある。
この問題を緩和するために、グラフ理論の観点を用いて2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価する協調オープンエンドラーニング(COLE)フレームワークを導入する。
ゲーム理論やグラフ理論、例えばシェープ価値や中心性から洞察を取り入れた実用的なアルゴリズムを考案した。
また,COLEは理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
続いて,質問票やモデル重み付け,その他の面を簡単にカスタマイズ可能な,人間-ai実験プラットフォームであるcole platformを開発した。
coleプラットフォームを利用して,130名の参加者を人間実験に参加させる。
本研究は,種々の主観的指標を用いた最先端手法に対するアプローチの好みを明らかにする。
さらに,オーバークッキングゲーム環境における客観的な実験結果から,従来のAIエージェントやヒューマンプロキシモデルとの協調作業において,本手法が既存手法を上回ることが示唆された。
私たちのコードとデモはhttps://sites.google.com/view/cole-2023で公開されている。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - Cooperative Open-ended Learning Framework for Zero-shot Coordination [35.330951448600594]
本研究では,2人のプレーヤーによる協調ゲームにおいて,オープンエンドの目標を構築するための枠組みを提案する。
また,ゲーム理論やグラフ理論からの知識を活用する実用的なアルゴリズムを提案する。
本手法は,異なるレベルのパートナーとコーディネートする場合に,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-02-09T18:37:04Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Coordination with Humans via Strategy Matching [5.072077366588174]
協調作業を行う人間と人間のチームを観察することにより、利用可能なタスク補完戦略を自律的に認識するアルゴリズムを提案する。
隠れマルコフモデルを使って、チームアクションを低次元の表現に変換することで、事前の知識なしに戦略を識別できます。
ロボットポリシーは、未確認のパートナーのタスク戦略に適応するMixture-of-Expertsモデルを構築するための、識別された戦略のそれぞれに基づいて学習される。
論文 参考訳(メタデータ) (2022-10-27T01:00:50Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Cooperative Control of Mobile Robots with Stackelberg Learning [63.99843063704676]
マルチロボットの協力は、エージェントが共通の目標に整合性を持たなければならない。
協調制御におけるスタックルバーグ学習という手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T07:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。