論文の概要: Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination
- arxiv url: http://arxiv.org/abs/2504.12714v1
- Date: Thu, 17 Apr 2025 07:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:01.659889
- Title: Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination
- Title(参考訳): ゼロショットマルチエージェントコーディネーションを可能にするクロス環境協調
- Authors: Kunal Jha, Wilka Carvalho, Yancheng Liang, Simon S. Du, Max Kleiman-Weiner, Natasha Jaques,
- Abstract要約: 本研究では,単一パートナーによる環境分布の強化学習が,一般的な協調学習の学習にどのように役立つかを検討する。
何十億もの解決可能な調整課題を生み出すJaxベースの手続き型ジェネレータを2つ導入する。
本研究は,様々なシナリオにまたがって協調学習を行うことによって,エージェントが一般的な規範を発達させることを示唆している。
- 参考スコア(独自算出の注目度): 37.90912492084769
- License:
- Abstract: Zero-shot coordination (ZSC), the ability to adapt to a new partner in a cooperative task, is a critical component of human-compatible AI. While prior work has focused on training agents to cooperate on a single task, these specialized models do not generalize to new tasks, even if they are highly similar. Here, we study how reinforcement learning on a distribution of environments with a single partner enables learning general cooperative skills that support ZSC with many new partners on many new problems. We introduce two Jax-based, procedural generators that create billions of solvable coordination challenges. We develop a new paradigm called Cross-Environment Cooperation (CEC), and show that it outperforms competitive baselines quantitatively and qualitatively when collaborating with real people. Our findings suggest that learning to collaborate across many unique scenarios encourages agents to develop general norms, which prove effective for collaboration with different partners. Together, our results suggest a new route toward designing generalist cooperative agents capable of interacting with humans without requiring human data.
- Abstract(参考訳): ゼロショットコーディネート(ZSC)は、人間互換AIの重要なコンポーネントである。
これまでの作業では、ひとつのタスクに協力するためのトレーニングエージェントに重点を置いてきたが、これらの特殊なモデルは、たとえ非常に類似しているとしても、新しいタスクに一般化しない。
本稿では,単一パートナーによる環境分布の強化学習が,多くの新しいパートナーとZSCを支援する汎用的な協調スキルの学習にどのように役立つかを検討する。
何十億もの解決可能な調整課題を生み出すJaxベースの手続き型ジェネレータを2つ導入する。
我々は,CEC(Cross-Environment Cooperation)と呼ばれる新たなパラダイムを開発し,実際の人とのコラボレーションにおいて,競争基準線を定量的に質的に上回ることを示す。
本研究は,様々なシナリオにまたがって協調学習を行うことによって,エージェントが様々なパートナーとのコラボレーションに有効である一般規範の開発を促すことを示唆している。
この結果から,人的データを必要としない人間と対話できる汎用的な協調エージェントを設計するための新たな道筋が示唆された。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Coordination with Humans via Strategy Matching [5.072077366588174]
協調作業を行う人間と人間のチームを観察することにより、利用可能なタスク補完戦略を自律的に認識するアルゴリズムを提案する。
隠れマルコフモデルを使って、チームアクションを低次元の表現に変換することで、事前の知識なしに戦略を識別できます。
ロボットポリシーは、未確認のパートナーのタスク戦略に適応するMixture-of-Expertsモデルを構築するための、識別された戦略のそれぞれに基づいて学習される。
論文 参考訳(メタデータ) (2022-10-27T01:00:50Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。