論文の概要: PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination
- arxiv url: http://arxiv.org/abs/2301.06387v4
- Date: Mon, 22 May 2023 13:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:39:45.041796
- Title: PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination
- Title(参考訳): PECAN: コンテキスト対応型ゼロショットヒューマンAIコーディネーションのためのレバレッジポリシ
- Authors: Xingzhou Lou, Jiaxian Guo, Junge Zhang, Jun Wang, Kaiqi Huang, Yali Du
- Abstract要約: 本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
- 参考スコア(独自算出の注目度): 52.991211077362586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot human-AI coordination holds the promise of collaborating with
humans without human data. Prevailing methods try to train the ego agent with a
population of partners via self-play. However, these methods suffer from two
problems: 1) The diversity of a population with finite partners is limited,
thereby limiting the capacity of the trained ego agent to collaborate with a
novel human; 2) Current methods only provide a common best response for every
partner in the population, which may result in poor zero-shot coordination
performance with a novel partner or humans. To address these issues, we first
propose the policy ensemble method to increase the diversity of partners in the
population, and then develop a context-aware method enabling the ego agent to
analyze and identify the partner's potential policy primitives so that it can
take different actions accordingly. In this way, the ego agent is able to learn
more universal cooperative behaviors for collaborating with diverse partners.
We conduct experiments on the Overcooked environment, and evaluate the
zero-shot human-AI coordination performance of our method with both
behavior-cloned human proxies and real humans. The results demonstrate that our
method significantly increases the diversity of partners and enables ego agents
to learn more diverse behaviors than baselines, thus achieving state-of-the-art
performance in all scenarios. We also open-source a human-AI coordination study
framework on the Overcooked for the convenience of future studies.
- Abstract(参考訳): ゼロショットの人間とAIの協調は、人間のデータなしで人間と協力するという約束を守る。
一般的な方法は、セルフプレイを通じて、パートナーの集団とegoエージェントを訓練しようとする。
しかし、この方法には2つの問題がある。
1) 有限パートナーを持つ集団の多様性は限定され、訓練された自我エージェントが新規の人間と協力する能力が制限される。
2) 現在の方法は,すべてのパートナーに対して共通のベスト応答しか提供せず,新たなパートナーや人間とのゼロショット協調性能が低下する可能性がある。
これらの問題に対処するために,まず,パートナーの多様性を高めるためのポリシーアンサンブル手法を提案し,その後,egoエージェントがパートナーの潜在ポリシープリミティブを分析・識別し,それに応じて異なるアクションを取ることができるコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
オーバークッキング環境で実験を行い,行動閉鎖型ヒトプロキシと実人間の両方を用いて,ゼロショットヒト-AI協調性能の評価を行った。
その結果,本手法はパートナーの多様性を著しく向上させ,egoエージェントがベースラインよりもより多様な行動を学ぶことを可能にし,すべてのシナリオにおいて最先端のパフォーマンスを実現する。
また,今後の研究の便宜のために,オーバークッキングされた人間-AI協調学習フレームワークをオープンソース化した。
関連論文リスト
- Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Constrained Human-AI Cooperation: An Inclusive Embodied Social Intelligence Challenge [47.74313897705183]
CHAICは、インボディードエージェントの社会的知覚と協力をテストするために設計された包括的インボディード・ソーシャル・インテリジェンス・チャレンジである。
CHAICの目標は、身体的制約の下で活動している可能性がある人間を支援するために、自我中心の観察装置を備えたエンボディエージェントである。
我々は,この課題に対する計画ベースラインと学習ベースラインのベンチマークを行い,大規模言語モデルと行動モデリングを活用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T04:41:12Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Efficient Human-AI Coordination via Preparatory Language-based
Convention [17.840956842806975]
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
論文 参考訳(メタデータ) (2023-11-01T10:18:23Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。