論文の概要: Automatic Curriculum Design for Zero-Shot Human-AI Coordination
- arxiv url: http://arxiv.org/abs/2503.07275v1
- Date: Mon, 10 Mar 2025 12:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:37.830778
- Title: Automatic Curriculum Design for Zero-Shot Human-AI Coordination
- Title(参考訳): ゼロショットヒューマンAIコーディネーションのための自動カリキュラム設計
- Authors: Won-Sang You, Tae-Gwan Ha, Seo-Young Lee, Kyung-Joong Kim,
- Abstract要約: ゼロショットヒューマンAIコーディネーション(ゼロショットヒューマンAIコーディネーション)とは、人間データを使わずに人間と協調するエゴエージェントのトレーニングである。
ゼロショット人間-AI協調設定のためのユーティリティ関数とコプレーヤサンプリングを提案する。
提案手法は,他のベースラインモデルよりも優れており,目に見えない環境での人間とAIの協調性能が高い。
- 参考スコア(独自算出の注目度): 4.634917646296438
- License:
- Abstract: Zero-shot human-AI coordination is the training of an ego-agent to coordinate with humans without using human data. Most studies on zero-shot human-AI coordination have focused on enhancing the ego-agent's coordination ability in a given environment without considering the issue of generalization to unseen environments. Real-world applications of zero-shot human-AI coordination should consider unpredictable environmental changes and the varying coordination ability of co-players depending on the environment. Previously, the multi-agent UED (Unsupervised Environment Design) approach has investigated these challenges by jointly considering environmental changes and co-player policy in competitive two-player AI-AI scenarios. In this paper, our study extends the multi-agent UED approach to a zero-shot human-AI coordination. We propose a utility function and co-player sampling for a zero-shot human-AI coordination setting that helps train the ego-agent to coordinate with humans more effectively than the previous multi-agent UED approach. The zero-shot human-AI coordination performance was evaluated in the Overcooked-AI environment, using human proxy agents and real humans. Our method outperforms other baseline models and achieves a high human-AI coordination performance in unseen environments.
- Abstract(参考訳): ゼロショットヒューマンAIコーディネーション(ゼロショットヒューマンAIコーディネーション)とは、人間データを使わずに人間と協調するエゴエージェントのトレーニングである。
ゼロショットヒトとAIの協調に関するほとんどの研究は、目に見えない環境への一般化の問題を考慮せずに、与えられた環境におけるエゴエージェントの協調能力を向上することに焦点を当てている。
ゼロショットの人間とAIの協調の現実的な応用は、予測不可能な環境変化と、環境に応じた共同プレイヤの協調能力を考慮するべきである。
これまで,マルチエージェントUED(Unsupervised Environment Design)アプローチは,競合する2人のAI-AIシナリオにおいて,環境変化と共同プレイヤポリシーを共同で検討することにより,これらの課題を調査してきた。
本稿では,マルチエージェント UED アプローチをゼロショットの人間とAIの協調に拡張する。
本研究では,エゴエージェントが従来のマルチエージェントUEDアプローチよりも効果的に人間と協調するように訓練するのに役立つ,ゼロショットのヒューマンAIコーディネート設定のためのユーティリティ関数とコプレーヤサンプリングを提案する。
ヒューマンプロキシエージェントと実際の人間を用いて,オーバークッキングされたAI環境において,ゼロショットの人間とAIの協調性能を評価した。
提案手法は,他のベースラインモデルよりも優れており,目に見えない環境での人間とAIの協調性能が高い。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Mixed-Initiative Human-Robot Teaming under Suboptimality with Online Bayesian Adaptation [0.6591036379613505]
我々は,最適人-エージェントチームの性能向上のための計算モデルと最適化手法を開発した。
我々は,ロボットが逐次意思決定ゲームにおいて,その支援に従おうとする人々の意思を推測できるオンラインベイズアプローチを採用する。
ユーザの好みやチームのパフォーマンスは,ロボットの介入スタイルによって明らかに異なります。
論文 参考訳(メタデータ) (2024-03-24T14:38:18Z) - Efficient Human-AI Coordination via Preparatory Language-based
Convention [17.840956842806975]
既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。
我々は、人間とAIの両方を効果的に導くアクションプランを開発するために、大規模言語モデル(LLM)を採用することを提案する。
提案手法は,ヒトの嗜好との整合性が向上し,平均性能が15%向上した。
論文 参考訳(メタデータ) (2023-11-01T10:18:23Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Stateful active facilitator: Coordination and Environmental
Heterogeneity in Cooperative Multi-Agent Reinforcement Learning [71.53769213321202]
環境の調整レベルと不均一度の概念を定式化する。
異なるMARLアプローチの実証評価を容易にするマルチエージェント環境のスイートであるHECOGridを提案する。
本研究では,エージェントが高配向環境と高配向環境において効率的に作業することを可能にする訓練分散実行学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T18:17:01Z) - On some Foundational Aspects of Human-Centered Artificial Intelligence [52.03866242565846]
人間中心人工知能(Human Centered Artificial Intelligence)の意味については明確な定義はない。
本稿では,AIコンポーネントを備えた物理・ソフトウェア計算エージェントを指すHCAIエージェントについて紹介する。
HCAIエージェントの概念は、そのコンポーネントや機能とともに、人間中心のAIに関する技術的および非技術的議論を橋渡しする手段であると考えています。
論文 参考訳(メタデータ) (2021-12-29T09:58:59Z) - On the Importance of Environments in Human-Robot Coordination [17.60947307552083]
多様な行動をもたらす環境の手続き的生成のための枠組みを提案する。
その結果、環境は質的に異なる出現行動と統計的に重要な協調指標の違いをもたらすことがわかった。
論文 参考訳(メタデータ) (2021-06-21T04:39:55Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。