論文の概要: Zero Shot Coordination for Sparse Reward Tasks with Diverse Reward Shapings
- arxiv url: http://arxiv.org/abs/2604.25076v1
- Date: Tue, 28 Apr 2026 00:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.640128
- Title: Zero Shot Coordination for Sparse Reward Tasks with Diverse Reward Shapings
- Title(参考訳): 逆転形をもつスパース逆転問題に対するゼロショットコーディネーション
- Authors: Keenan Powell, Peihong Yu, Pratap Tokekar,
- Abstract要約: 4つの選択アルゴリズムを用いて選択したランダム化された報酬形状を用いて,メソッドのアンサンブルを訓練する方法を示す。
Overcooked環境での実験では、ベースラインZSCアルゴリズムよりも62.2%-119.2%のスパース報酬が一貫して改善された。
- 参考スコア(独自算出の注目度): 10.603746787420457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many Multi-Agent Reinforcement Learning (MARL) agents fail to adapt properly to cooperating with agents trained with the same objectives but different seeds, algorithms, or other training differences. This is the problem of Zero-Shot Coordination (ZSC), which focuses on training agents to cooperate well with unknown agents. ZSC has been studied for a variety of tabular cases and simple games such as Hanabi, achieving excellent results. However, existing solutions to ZSC only consider identical rewards for your trained agents and all future partners. This is not realistic for the trained agents, as they do not consider the problem of cooperating with agents that have identical sparse objectives but shape the rewards for those objectives in different manner. To address this issue, we show how to train an ensemble of methods using randomized reward shapings chosen using 4 selection algorithms. Experiments done on the Overcooked environment demonstrate consistent improvements of 62.2%-119.2% in sparse reward over baseline ZSC algorithms when playing with agents that have identical sparse rewards but different reward shapings.
- Abstract(参考訳): 多くのMARL(Multi-Agent Reinforcement Learning)エージェントは、同じ目的で訓練されたエージェントと、異なる種、アルゴリズム、またはその他の訓練の違いで協調するように適切に適応できない。
これはZSC(Zero-Shot Coordination)の問題であり、未知のエージェントとうまく連携するための訓練エージェントに焦点を当てている。
ZSCは、さまざまな表形式のケースや、ハナビのような単純なゲームに対して研究されており、優れた結果が得られている。
しかし、既存のZSCのソリューションは、訓練されたエージェントと将来のパートナーすべてに対してのみ、同じ報酬を考慮します。
これは訓練されたエージェントにとって現実的ではなく、同一のスパース目標を持つエージェントと協力する問題を考慮せず、異なる方法でそれらの目標に対する報酬を形作る。
この問題に対処するために、4つの選択アルゴリズムを用いて選択したランダム化された報酬形を用いてメソッドのアンサンブルを訓練する方法を示す。
オーバークッキング環境での実験では、同じスパース報酬を持つエージェントとプレイする場合、ベースラインのZSCアルゴリズムよりも62.2%-119.2%のスパース報酬が一貫して改善された。
関連論文リスト
- Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach [11.740631954398292]
Pommermanはマルチエージェントトレーニングのための理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
論文 参考訳(メタデータ) (2024-06-30T11:14:29Z) - MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based
Collaborative Learning [56.00558959816801]
マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。
MaskMAは、非集中的な実行によって60の未確認テストマップ上で、77.8%の平均ゼロショット勝利率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-18T09:53:27Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Two-stage training algorithm for AI robot soccer [2.0757564643017092]
異種エージェントの学習性能を向上させるために,二段階多種集中訓練を提案する。
提案手法は,5対5のAIロボットサッカーを用いて検証を行う。
論文 参考訳(メタデータ) (2021-04-13T04:24:13Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。