論文の概要: The Overcooked Generalisation Challenge: Evaluating Cooperation with Novel Partners in Unknown Environments Using Unsupervised Environment Design
- arxiv url: http://arxiv.org/abs/2406.17949v3
- Date: Fri, 12 Sep 2025 08:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.833315
- Title: The Overcooked Generalisation Challenge: Evaluating Cooperation with Novel Partners in Unknown Environments Using Unsupervised Environment Design
- Title(参考訳): 包括的総合化課題:教師なし環境設計を用いた未知環境における新規パートナーの連携評価
- Authors: Constantin Ruhdorfer, Matteo Bortoletto, Anna Penzkofer, Andreas Bulling,
- Abstract要約: Overcooked Generalisation Challenge (OGC)は、未知のパートナーと不慣れな環境で協力する能力に基づいて強化学習(RL)エージェントを評価するための新しいベンチマークである。
OGCはOvercooked-AIを拡張してデュアルカリキュラムデザイン(DCD)をサポートする
我々は、スケーラブルなニューラルアーキテクチャとともに最先端のDCDアルゴリズムを評価し、現在の手法では、新しいレイアウトやなじみの無いパートナーに効果的に一般化するエージェントを生成できないことを発見した。
- 参考スコア(独自算出の注目度): 15.896892078446989
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce the Overcooked Generalisation Challenge (OGC) - a new benchmark for evaluating reinforcement learning (RL) agents on their ability to cooperate with unknown partners in unfamiliar environments. Existing work typically evaluated cooperative RL only in their training environment or with their training partners, thus seriously limiting our ability to understand agents' generalisation capacity - an essential requirement for future collaboration with humans. The OGC extends Overcooked-AI to support dual curriculum design (DCD). It is fully GPU-accelerated, open-source, and integrated into the minimax DCD benchmark suite. Compared to prior DCD benchmarks, where designers manipulate only minimal elements of the environment, OGC introduces a significantly richer design space: full kitchen layouts with multiple objects that require the designer to account for interaction dynamics between agents. We evaluate state-of-the-art DCD algorithms alongside scalable neural architectures and find that current methods fail to produce agents that generalise effectively to novel layouts and unfamiliar partners. Our results indicate that both agents and curriculum designers struggle with the joint challenge of partner and environment generalisation. These findings establish OGC as a demanding testbed for cooperative generalisation and highlight key directions for future research. We open-source our code.
- Abstract(参考訳): 我々は、未知のパートナーと不慣れな環境で協力する能力について、強化学習(RL)エージェントを評価するための新しいベンチマークであるOGC(Overcooked Generalisation Challenge)を紹介する。
既存の作業は、通常、トレーニング環境でのみ、または、トレーニングパートナと共に協調RLを評価し、エージェントの一般化能力を理解する能力を著しく制限します。
OGCはOvercooked-AIを拡張し、デュアルカリキュラムデザイン(DCD)をサポートする。
完全にGPUアクセラレーションされ、オープンソースであり、minimax DCDベンチマークスイートに統合されている。
デザイナーが環境の最小限の要素しか操作しない以前のDCDベンチマークと比較すると、OGCはよりリッチなデザイン空間を導入している。
我々は、スケーラブルなニューラルアーキテクチャとともに最先端のDCDアルゴリズムを評価し、現在の手法では、新しいレイアウトやなじみの無いパートナーに効果的に一般化するエージェントを生成できないことを発見した。
この結果から, エージェントとカリキュラムデザイナーは, パートナーと環境の一般化という共同課題に苦慮していることが明らかとなった。
これらの知見は,OGCを協調的一般化のための要求テストベッドとして確立し,今後の研究の鍵となる方向性を明らかにする。
コードをオープンソースにしています。
関連論文リスト
- ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork [35.31433715096886]
未確認のパートナーとの共同作業が可能なAIエージェントの開発は、Ad Hoc Teamwork(AHT)として知られるマルチエージェント学習における基本的な一般化課題である。
アドホックエージェントと対向チームメイトジェネレータ間のオープンエンド学習プロセスとして問題を再構築し,AHTの統一フレームワークを提案する。
このアルゴリズムは、AHTエージェントの改善と、その欠陥を調査するチームメイトの生成を交互に行う。
論文 参考訳(メタデータ) (2025-05-29T17:24:54Z) - Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination [37.90912492084769]
本研究では,単一パートナーによる環境分布の強化学習が,一般的な協調学習の学習にどのように役立つかを検討する。
何十億もの解決可能な調整課題を生み出すJaxベースの手続き型ジェネレータを2つ導入する。
本研究は,様々なシナリオにまたがって協調学習を行うことによって,エージェントが一般的な規範を発達させることを示唆している。
論文 参考訳(メタデータ) (2025-04-17T07:41:25Z) - An Empirical Game-Theoretic Analysis of Autonomous Cyber-Defence Agents [0.0]
我々は、このプロセスの迅速化のために理論的に正しいポテンシャルに基づく報酬形成手法を導入し、評価する。
さらに,オープンソース ACD-DRL のアプローチが増加していることを踏まえ,複数の応答オラクルを扱えるように DO の定式化を拡張した。
論文 参考訳(メタデータ) (2025-01-31T15:15:02Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Problem Solving Through Human-AI Preference-Based Cooperation [74.39233146428492]
我々は,人間-AI共同構築フレームワークであるHAI-Co2を提案する。
我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。
本稿では,HAI-Co2のケーススタディと,モノリシックな生成型AIモデルとの比較による有効性を示す。
論文 参考訳(メタデータ) (2024-08-14T11:06:57Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - CCA: Collaborative Competitive Agents for Image Editing [59.54347952062684]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文 参考訳(メタデータ) (2024-01-23T11:46:28Z) - Benchmarking Robustness and Generalization in Multi-Agent Systems: A
Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。
この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。
環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文 参考訳(メタデータ) (2023-08-30T07:16:11Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。