論文の概要: Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards
- arxiv url: http://arxiv.org/abs/2510.16187v1
- Date: Fri, 17 Oct 2025 19:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.888914
- Title: Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards
- Title(参考訳): 一般政策改善と相違を考慮したアドホックチームにおけるゼロショットコーディネーション
- Authors: Rupal Nigam, Niket Parikh, Hamid Osooli, Mikihisa Yuasa, Jacob Heglund, Huy T. Tran,
- Abstract要約: 現実世界のマルチエージェントシステムではアドホックなチーム編成が必要であり、エージェントはそれまで目に見えない他のチームメイトと調整して、ゼロショットでタスクを解決しなければならない。
ゼロショット転送設定において、事前訓練されたすべてのポリシーを活用することを提案する。この問題をアドホックなマルチエージェントマルコフ決定プロセスとして形式化し、一般化されたポリシー改善と差分報酬という2つの重要なアイデアを用いたソリューションを提案する。
当社のアルゴリズムであるGPAT(Generalized Policy Improvement for Adhoc Teaming)が,3つの模擬環境(協調採餌,捕食者・捕食者・捕食者・捕食者・捕食者・捕食者・捕食者)における新規チームへのゼロショット移行を成功に導くことを実証的に実証した。
- 参考スコア(独自算出の注目度): 0.41562334038629595
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-world multi-agent systems may require ad hoc teaming, where an agent must coordinate with other previously unseen teammates to solve a task in a zero-shot manner. Prior work often either selects a pretrained policy based on an inferred model of the new teammates or pretrains a single policy that is robust to potential teammates. Instead, we propose to leverage all pretrained policies in a zero-shot transfer setting. We formalize this problem as an ad hoc multi-agent Markov decision process and present a solution that uses two key ideas, generalized policy improvement and difference rewards, for efficient and effective knowledge transfer between different teams. We empirically demonstrate that our algorithm, Generalized Policy improvement for Ad hoc Teaming (GPAT), successfully enables zero-shot transfer to new teams in three simulated environments: cooperative foraging, predator-prey, and Overcooked. We also demonstrate our algorithm in a real-world multi-robot setting.
- Abstract(参考訳): 現実世界のマルチエージェントシステムではアドホックなチーム編成が必要であり、エージェントはそれまで目に見えない他のチームメイトと調整して、ゼロショットでタスクを解決しなければならない。
以前の作業は、しばしば、新しいチームメイトを推論したモデルに基づいて事前訓練されたポリシーを選択するか、潜在的なチームメイトに対して堅牢な単一のポリシーを事前訓練する。
代わりに、ゼロショット転送設定で事前訓練されたすべてのポリシーを活用することを提案する。
我々は、この問題をアドホックなマルチエージェントのマルコフ決定プロセスとして形式化し、異なるチーム間の効率的な効果的な知識伝達のために、一般的な政策改善と相違報酬という2つの重要なアイデアを使用するソリューションを提案する。
我々は,我々のアルゴリズムであるGPAT(Generalized Policy Improvement for Adhoc Teaming)が,協調採餌,捕食,過剰調理の3つの模擬環境において,新たなチームへのゼロショット転送を可能にすることを実証的に実証した。
また,本アルゴリズムを実世界のマルチロボット設定で実演する。
関連論文リスト
- Seldonian Reinforcement Learning for Ad Hoc Teamwork [47.100080234094065]
ほとんどのオフラインRLアルゴリズムは最適なポリシーを返すが、望ましい振る舞いに関する統計的保証は提供しない。
これにより、安全クリティカルなアプリケーションに信頼性の問題が発生する可能性がある。
セルドン最適化にインスパイアされた新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2025-03-05T20:37:02Z) - N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文 参考訳(メタデータ) (2024-04-16T17:13:08Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。