論文の概要: OvercookedV2: Rethinking Overcooked for Zero-Shot Coordination
- arxiv url: http://arxiv.org/abs/2503.17821v1
- Date: Sat, 22 Mar 2025 17:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:57.849190
- Title: OvercookedV2: Rethinking Overcooked for Zero-Shot Coordination
- Title(参考訳): OvercookedV2: ゼロショットコーディネーションのためのオーバークッキングを再考
- Authors: Tobias Gessler, Tin Dizdarevic, Ani Calinescu, Benjamin Ellis, Andrei Lupu, Jakob Nicolaus Foerster,
- Abstract要約: オーバークッキングにおけるZSC課題の起源について検討する。
我々は、未知のパートナーとペアを組む際に遭遇する可能性のある状態を、トレーニングディストリビューションに混合する状態拡張機構を導入する。
本アルゴリズムは,Overcookedにおいて,独立に訓練されたエージェントが正常に動作することを示す。
- 参考スコア(独自算出の注目度): 6.610547346998213
- License:
- Abstract: AI agents hold the potential to transform everyday life by helping humans achieve their goals. To do this successfully, agents need to be able to coordinate with novel partners without prior interaction, a setting known as zero-shot coordination (ZSC). Overcooked has become one of the most popular benchmarks for evaluating coordination capabilities of AI agents and learning algorithms. In this work, we investigate the origins of ZSC challenges in Overcooked. We introduce a state augmentation mechanism which mixes states that might be encountered when paired with unknown partners into the training distribution, reducing the out-of-distribution challenge associated with ZSC. We show that independently trained agents under this algorithm coordinate successfully in Overcooked. Our results suggest that ZSC failure can largely be attributed to poor state coverage under self-play rather than more sophisticated coordination challenges. The Overcooked environment is therefore not suitable as a ZSC benchmark. To address these shortcomings, we introduce OvercookedV2, a new version of the benchmark, which includes asymmetric information and stochasticity, facilitating the creation of interesting ZSC scenarios. To validate OvercookedV2, we conduct experiments demonstrating that mere exhaustive state coverage is insufficient to coordinate well. Finally, we use OvercookedV2 to build a new range of coordination challenges, including ones that require test time protocol formation, and we demonstrate the need for new coordination algorithms that can adapt online. We hope that OvercookedV2 will help benchmark the next generation of ZSC algorithms and advance collaboration between AI agents and humans.
- Abstract(参考訳): AIエージェントは、人間が目標を達成するのを助けることによって、日々の生活を変える可能性を秘めている。
これを成功させるためには、エージェントは、ゼロショットコーディネート(ZSC)と呼ばれる設定である、事前の相互作用なしに新規パートナーと協調できる必要がある。
Overcookedは、AIエージェントと学習アルゴリズムの調整能力を評価するための最も人気のあるベンチマークの1つになった。
本研究は,OvercookedにおけるZSC課題の起源について考察する。
本研究では、未知のパートナーとペアリングした場合に遭遇する可能性のある状態を混合し、ZSCに関連するアウト・オブ・ディストリビューションの課題を軽減する状態拡張機構を導入する。
本アルゴリズムは,Overcookedにおいて,独立に訓練されたエージェントが正常に動作することを示す。
以上の結果から,ZSCの障害の原因は,より高度な調整課題ではなく,自己プレイによる状態カバレッジの低下にある可能性が示唆された。
従ってオーバークッキング環境はZSCベンチマークには適さない。
これらの欠点に対処するため、ベンチマークの新バージョンであるOvercookedV2を紹介し、非対称情報と確率性を含み、興味深いZSCシナリオの作成を容易にする。
オーバークッキングV2を検証するために, 単に排他的状態カバレッジが不十分であることを示す実験を行った。
最後に、OvercookedV2を使用して、テスト時間プロトコル形成を必要とするものを含む、新しいさまざまな調整課題を構築します。
私たちはOvercookedV2が次世代のZSCアルゴリズムをベンチマークし、AIエージェントと人間とのコラボレーションを促進することを期待しています。
関連論文リスト
- Noisy Zero-Shot Coordination: Breaking The Common Knowledge Assumption In Zero-Shot Coordination Games [18.390017115631412]
ゼロショットコーディネート (ZSC) は、新規パートナーと協調する強化学習 (RL) エージェントの研究に人気がある。
そこで本研究では,NZSC問題をZSC問題に還元する手法として,DEC-POMDPを基本構造とする拡張状態空間を持つメタデック-POMDPを設計する手法を提案する。
NZSCトレーニングでは、協調の(実際に)問題設定が一般的ではない場合でも、RLエージェントが新規パートナーとうまく協調するように訓練できることが示される。
論文 参考訳(メタデータ) (2024-11-07T18:50:14Z) - An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Heterogeneous Multi-agent Zero-Shot Coordination by Coevolution [39.52789410357272]
異種ゼロショットコーディネート(ZSC)問題を初めて検討した。
本稿では,3つのサブプロセス(ペアリング,更新,選択)を通じてエージェントとパートナーの2つの集団を共進化させる,共進化に基づく一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-08-09T16:16:28Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Quasi-Equivalence Discovery for Zero-Shot Emergent Communication [63.175848843466845]
ゼロショットコーディネーション(ZSC)を実現するための新しい問題設定と準等価探索アルゴリズムを提案する。
これらの2つの要因が参照ゲームにおいて一意に最適なZSCポリシーをもたらすことを示す。
QEDはこの設定における対称性を反復的に発見することができ、最適なZSCポリシーに収束する。
論文 参考訳(メタデータ) (2021-03-14T23:42:37Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。