論文の概要: ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2505.23686v1
- Date: Thu, 29 May 2025 17:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.034163
- Title: ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork
- Title(参考訳): ROTATE: アドホックなチームワークのためのレグレト駆動のオープンエンドトレーニング
- Authors: Caroline Wang, Arrasy Rahman, Jiaxun Cui, Yoonchang Sung, Peter Stone,
- Abstract要約: 未確認のパートナーとの共同作業が可能なAIエージェントの開発は、Ad Hoc Teamwork(AHT)として知られるマルチエージェント学習における基本的な一般化課題である。
アドホックエージェントと対向チームメイトジェネレータ間のオープンエンド学習プロセスとして問題を再構築し,AHTの統一フレームワークを提案する。
このアルゴリズムは、AHTエージェントの改善と、その欠陥を調査するチームメイトの生成を交互に行う。
- 参考スコア(独自算出の注目度): 35.31433715096886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing AI agents capable of collaborating with previously unseen partners is a fundamental generalization challenge in multi-agent learning, known as Ad Hoc Teamwork (AHT). Existing AHT approaches typically adopt a two-stage pipeline, where first, a fixed population of teammates is generated with the idea that they should be representative of the teammates that will be seen at deployment time, and second, an AHT agent is trained to collaborate well with agents in the population. To date, the research community has focused on designing separate algorithms for each stage. This separation has led to algorithms that generate teammate pools with limited coverage of possible behaviors, and that ignore whether the generated teammates are easy to learn from for the AHT agent. Furthermore, algorithms for training AHT agents typically treat the set of training teammates as static, thus attempting to generalize to previously unseen partner agents without assuming any control over the distribution of training teammates. In this paper, we present a unified framework for AHT by reformulating the problem as an open-ended learning process between an ad hoc agent and an adversarial teammate generator. We introduce ROTATE, a regret-driven, open-ended training algorithm that alternates between improving the AHT agent and generating teammates that probe its deficiencies. Extensive experiments across diverse AHT environments demonstrate that ROTATE significantly outperforms baselines at generalizing to an unseen set of evaluation teammates, thus establishing a new standard for robust and generalizable teamwork.
- Abstract(参考訳): 未確認のパートナとのコラボレーションが可能なAIエージェントの開発は、Ad Hoc Teamwork(AHT)として知られるマルチエージェント学習における基本的な一般化課題である。
既存のAHTアプローチでは,通常は2段階のパイプラインが採用されている。まずは,デプロイ時に見られるチームメイトを代表して,固定された数のチームメイトが生成される。
これまで研究コミュニティは、各ステージごとに別々のアルゴリズムを設計することに重点を置いてきた。
この分離によって、可能性のある振る舞いを限定的にカバーしたチームメイトプールを生成するアルゴリズムが生まれ、生成されたチームメイトがAHTエージェントから簡単に学習できるかどうかを無視するようになりました。
さらに、AHTエージェントをトレーニングするためのアルゴリズムは、通常、トレーニングチームメイトのセットを静的として扱うため、トレーニングチームメイトの分布を制御せずに、これまで見つからなかったパートナーエージェントに一般化しようとする。
本稿では,アドホックエージェントと対向チームメイトジェネレータ間のオープンエンド学習プロセスとして問題を再構築し,AHTの統一フレームワークを提案する。
このアルゴリズムは、AHTエージェントの改善と、その欠陥を調査するチームメイトの生成を交互に行う。
多様なAHT環境にわたる大規模な実験は、ROTATEがチームメイトの評価の見当たらないセットに一般化することで、ベースラインを著しく上回り、堅牢で一般化可能なチームワークのための新しい標準を確立することを実証している。
関連論文リスト
- N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文 参考訳(メタデータ) (2024-04-16T17:13:08Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Generating Teammates for Training Robust Ad Hoc Teamwork Agents via
Best-Response Diversity [6.940758395823777]
アドホックチームワーク(Ad hoc teamwork、AHT)は、未知のチームメイトと効果的に協力する堅牢な学習エージェントを設計する挑戦である。
初期のアプローチは、手作りのチームメイトポリシーの多様なセットで学習者をトレーニングすることで、AHTの課題に対処する。
近年,情報理論の多様性指標を最適化することにより,チームメイトポリシーを用いて学習者の堅牢性を向上させる手法が提案されている。
論文 参考訳(メタデータ) (2022-07-28T14:58:32Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。