論文の概要: Unsupervised Partner Design Enables Robust Ad-hoc Teamwork
- arxiv url: http://arxiv.org/abs/2508.06336v1
- Date: Fri, 08 Aug 2025 14:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.25018
- Title: Unsupervised Partner Design Enables Robust Ad-hoc Teamwork
- Title(参考訳): 教師なしのパートナーデザインは、ロバストなアドホックなチームワークを可能にする
- Authors: Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling,
- Abstract要約: Unsupervised Partner Design (UPD) は、ロバストなアドホックチームワークのためのマルチエージェント強化学習フレームワークである。
UPDは、エゴエージェントのポリシーをランダムパラメータと混合することで多様なパートナーを構築し、分散ベースの学習性メトリクスを用いてそれらをスコアする。
UPDは教師なし環境設計と統合可能であることを示す。
- 参考スコア(独自算出の注目度): 7.578942855148756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Unsupervised Partner Design (UPD) - a population-free, multi-agent reinforcement learning framework for robust ad-hoc teamwork that adaptively generates training partners without requiring pretrained partners or manual parameter tuning. UPD constructs diverse partners by stochastically mixing an ego agent's policy with biased random behaviours and scores them using a variance-based learnability metric that prioritises partners near the ego agent's current learning frontier. We show that UPD can be integrated with unsupervised environment design, resulting in the first method enabling fully unsupervised curricula over both level and partner distributions in a cooperative setting. Through extensive evaluations on Overcooked-AI and the Overcooked Generalisation Challenge, we demonstrate that this dynamic partner curriculum is highly effective: UPD consistently outperforms both population-based and population-free baselines as well as ablations. In a user study, we further show that UPD achieves higher returns than all baselines and was perceived as significantly more adaptive, more human-like, a better collaborator, and less frustrating.
- Abstract(参考訳): 我々は,非教師付きパートナー設計(UPD)を導入し,非教師付きパートナーや手動パラメータチューニングを必要とせずに,トレーニングパートナを適応的に生成するロバストなアドホックチームワークのためのマルチエージェント強化学習フレームワークを提案する。
UPDは、エゴエージェントのポリシーを偏りのあるランダムな振る舞いと確率的に混合することで多様なパートナーを構築し、エゴエージェントの現在の学習フロンティア付近でパートナーを優先する分散ベースの学習可能性指標を用いてそれらを評価する。
その結果,UDDは教師なし環境設計と統合可能であり,協調的な環境下でのレベルとパートナーの分布の両面において,完全に教師なしのキュキュキュラを可能にする最初の方法が得られた。
オーバーcooked-AIとOvercooked Generalisation Challengeの広範な評価を通じて、この動的パートナーカリキュラムは極めて効果的であることが実証された。
ユーザスタディでは、UDDはすべてのベースラインよりも高いリターンを達成し、より適応性があり、より人間らしく、より良い協力者であり、フラストレーションが少ないと認識された。
関連論文リスト
- Heterogeneous Agent Collaborative Reinforcement Learning [52.99813668995983]
不均一エージェント協調強化学習(HACRL)
本稿では,このパラダイムに基づいて,サンプル利用とエージェント間の知識伝達を最大化するために,原則的なロールアウト共有を可能にする協調RLアルゴリズムであるHACPOを提案する。
多様な異種モデルの組み合わせと推論ベンチマークによる実験により、HACPOはすべてのエージェントを一貫して改善し、GSPOを平均3.3%上回り、ロールアウトコストの半分しか使っていないことが示された。
論文 参考訳(メタデータ) (2026-03-03T05:09:49Z) - Nested Training for Mutual Adaptation in Human-AI Teaming [30.247046563601202]
既存のアプローチは、トレーニングパートナの多様性を改善して人間の振る舞いを近似することを目的としているが、これらのパートナは静的であり、人間の適応的な振る舞いを捉えることができない。
我々は,人間ロボットのチーム化シナリオを対話的部分観測可能なマルコフ決定プロセス (I-POMDP) としてモデル化し,その状態の一部としての人間の適応を明示的にモデル化する。
提案手法を,人間ロボットの協調作業用に設計された複数のベースラインエージェントと比較し,オーバークッキング領域における協調設定を必要とするマルチフェーズで学習する。
論文 参考訳(メタデータ) (2026-02-18T23:07:48Z) - Efficient Reinforcement Learning for Zero-Shot Coordination in Evolving Games [30.01934395713042]
ゼロショット調整はマルチエージェントゲーム理論における鍵となる課題である。
人口ベーストレーニングは、ゼロショット調整性能が良いことが証明されている。
論文 参考訳(メタデータ) (2025-11-14T08:59:22Z) - Learning "Partner-Aware" Collaborators in Multi-Party Collaboration [12.287537011305497]
大規模言語モデル(LLM)は,人間との共同作業を行うエージェント設定にデプロイされることが増えている。
本稿では、協調行動に関する新たな理論的洞察を提供するために、AIアライメントと安全な割り込み可能性文献に基づく。
CG-最適協調者を訓練するための新しいパートナー認識学習アルゴリズムであるInterruptible Collaborative Roleplayer (ICR)を提案する。
論文 参考訳(メタデータ) (2025-10-26T00:05:48Z) - CooT: Learning to Coordinate In-Context with Coordination Transformers [4.205946699819021]
CooT(Coordination Transformers)は、最近のインタラクション履歴を利用して、目に見えないパートナーに迅速に適応する、新しいコンテキスト内コーディネートフレームワークである。
多様なエージェントから収集された相互作用軌跡に基づいて訓練されたCooTは、明確な監督や微調整なしに、効果的な協調戦略を素早く学習する。
人間の評価では、CooTが最も効果的なコラボレーティブパートナであることが確認されているが、広範な改善は、マルチエージェントシナリオにおけるコンテキストに対する堅牢性、柔軟性、感度を強調している。
論文 参考訳(メタデータ) (2025-06-30T06:45:39Z) - Partner Modelling Emerges in Recurrent Agents (But Only When It Matters) [4.845103288370202]
モデルフリーのRNNエージェントを訓練し、多様なパートナーの集団と協力する。
エージェントがタスク割り当てを制御することで、パートナー行動に影響を与えると、構造化されたパートナーモデリングが出現する。
我々の結果は、パートナーモデリングはモデルのないエージェントで自然に起こる可能性があるが、適切な社会的圧力を課す環境条件下でのみであることを示している。
論文 参考訳(メタデータ) (2025-05-22T22:24:12Z) - The Overcooked Generalisation Challenge: Evaluating Cooperation with Novel Partners in Unknown Environments Using Unsupervised Environment Design [15.896892078446989]
Overcooked Generalisation Challenge (OGC)は、未知のパートナーと不慣れな環境で協力する能力に基づいて強化学習(RL)エージェントを評価するための新しいベンチマークである。
OGCはOvercooked-AIを拡張してデュアルカリキュラムデザイン(DCD)をサポートする
我々は、スケーラブルなニューラルアーキテクチャとともに最先端のDCDアルゴリズムを評価し、現在の手法では、新しいレイアウトやなじみの無いパートナーに効果的に一般化するエージェントを生成できないことを発見した。
論文 参考訳(メタデータ) (2024-06-25T21:51:43Z) - REVECA: Adaptive Planning and Trajectory-based Validation in Cooperative Language Agents using Information Relevance and Relative Proximity [5.365719315040012]
REVECAはGPT-4o-miniを利用した新しい認知アーキテクチャである。
効率的なメモリ管理、最適なプランニング、偽プランニングの費用対効果の防止を可能にする。
論文 参考訳(メタデータ) (2024-05-27T01:47:14Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Hierarchical Approach to Population Training for Human-AI
Collaboration [20.860808795671343]
階層型強化学習(HRL)に基づくヒューマンAIコラボレーション手法を提案する。
本手法は,2人のプレイヤーによるオーバークッキングゲーム環境において,異なるプレイスタイルとスキルレベルを持つ新しいパートナに動的に適応できることを実証する。
論文 参考訳(メタデータ) (2023-05-26T07:53:12Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。