論文の概要: Unsupervised Partner Design Enables Robust Ad-hoc Teamwork
- arxiv url: http://arxiv.org/abs/2508.06336v1
- Date: Fri, 08 Aug 2025 14:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.25018
- Title: Unsupervised Partner Design Enables Robust Ad-hoc Teamwork
- Title(参考訳): 教師なしのパートナーデザインは、ロバストなアドホックなチームワークを可能にする
- Authors: Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling,
- Abstract要約: Unsupervised Partner Design (UPD) は、ロバストなアドホックチームワークのためのマルチエージェント強化学習フレームワークである。
UPDは、エゴエージェントのポリシーをランダムパラメータと混合することで多様なパートナーを構築し、分散ベースの学習性メトリクスを用いてそれらをスコアする。
UPDは教師なし環境設計と統合可能であることを示す。
- 参考スコア(独自算出の注目度): 7.578942855148756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Unsupervised Partner Design (UPD) - a population-free, multi-agent reinforcement learning framework for robust ad-hoc teamwork that adaptively generates training partners without requiring pretrained partners or manual parameter tuning. UPD constructs diverse partners by stochastically mixing an ego agent's policy with biased random behaviours and scores them using a variance-based learnability metric that prioritises partners near the ego agent's current learning frontier. We show that UPD can be integrated with unsupervised environment design, resulting in the first method enabling fully unsupervised curricula over both level and partner distributions in a cooperative setting. Through extensive evaluations on Overcooked-AI and the Overcooked Generalisation Challenge, we demonstrate that this dynamic partner curriculum is highly effective: UPD consistently outperforms both population-based and population-free baselines as well as ablations. In a user study, we further show that UPD achieves higher returns than all baselines and was perceived as significantly more adaptive, more human-like, a better collaborator, and less frustrating.
- Abstract(参考訳): 我々は,非教師付きパートナー設計(UPD)を導入し,非教師付きパートナーや手動パラメータチューニングを必要とせずに,トレーニングパートナを適応的に生成するロバストなアドホックチームワークのためのマルチエージェント強化学習フレームワークを提案する。
UPDは、エゴエージェントのポリシーを偏りのあるランダムな振る舞いと確率的に混合することで多様なパートナーを構築し、エゴエージェントの現在の学習フロンティア付近でパートナーを優先する分散ベースの学習可能性指標を用いてそれらを評価する。
その結果,UDDは教師なし環境設計と統合可能であり,協調的な環境下でのレベルとパートナーの分布の両面において,完全に教師なしのキュキュキュラを可能にする最初の方法が得られた。
オーバーcooked-AIとOvercooked Generalisation Challengeの広範な評価を通じて、この動的パートナーカリキュラムは極めて効果的であることが実証された。
ユーザスタディでは、UDDはすべてのベースラインよりも高いリターンを達成し、より適応性があり、より人間らしく、より良い協力者であり、フラストレーションが少ないと認識された。
関連論文リスト
- CooT: Learning to Coordinate In-Context with Coordination Transformers [4.205946699819021]
CooT(Coordination Transformers)は、最近のインタラクション履歴を利用して、目に見えないパートナーに迅速に適応する、新しいコンテキスト内コーディネートフレームワークである。
多様なエージェントから収集された相互作用軌跡に基づいて訓練されたCooTは、明確な監督や微調整なしに、効果的な協調戦略を素早く学習する。
人間の評価では、CooTが最も効果的なコラボレーティブパートナであることが確認されているが、広範な改善は、マルチエージェントシナリオにおけるコンテキストに対する堅牢性、柔軟性、感度を強調している。
論文 参考訳(メタデータ) (2025-06-30T06:45:39Z) - Partner Modelling Emerges in Recurrent Agents (But Only When It Matters) [4.845103288370202]
モデルフリーのRNNエージェントを訓練し、多様なパートナーの集団と協力する。
エージェントがタスク割り当てを制御することで、パートナー行動に影響を与えると、構造化されたパートナーモデリングが出現する。
我々の結果は、パートナーモデリングはモデルのないエージェントで自然に起こる可能性があるが、適切な社会的圧力を課す環境条件下でのみであることを示している。
論文 参考訳(メタデータ) (2025-05-22T22:24:12Z) - REVECA: Adaptive Planning and Trajectory-based Validation in Cooperative Language Agents using Information Relevance and Relative Proximity [5.365719315040012]
REVECAはGPT-4o-miniを利用した新しい認知アーキテクチャである。
効率的なメモリ管理、最適なプランニング、偽プランニングの費用対効果の防止を可能にする。
論文 参考訳(メタデータ) (2024-05-27T01:47:14Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。