論文の概要: PADiff: Predictive and Adaptive Diffusion Policies for Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2511.07260v1
- Date: Mon, 10 Nov 2025 16:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.35604
- Title: PADiff: Predictive and Adaptive Diffusion Policies for Ad Hoc Teamwork
- Title(参考訳): PADiff: アドホックなチームワークのための予測的かつ適応的な拡散ポリシー
- Authors: Hohei Chan, Xinzhi Zhang, Antao Xiang, Weinan Zhang, Mengchen Zhao,
- Abstract要約: アドホックチームワーク(AHT)では、エージェントがこれまで見つからなかったチームメイトと協力する必要がある。
従来のRLベースのアプローチは、1つの期待したリターンを最適化する。
PADiffは、エージェントのマルチモーダルな振る舞いを捉え、チームメイトとの多様な協調モードをアンロックする拡散ベースのアプローチである。
- 参考スコア(独自算出の注目度): 19.386340680474955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad hoc teamwork (AHT) requires agents to collaborate with previously unseen teammates, which is crucial for many real-world applications. The core challenge of AHT is to develop an ego agent that can predict and adapt to unknown teammates on the fly. Conventional RL-based approaches optimize a single expected return, which often causes policies to collapse into a single dominant behavior, thus failing to capture the multimodal cooperation patterns inherent in AHT. In this work, we introduce PADiff, a diffusion-based approach that captures agent's multimodal behaviors, unlocking its diverse cooperation modes with teammates. However, standard diffusion models lack the ability to predict and adapt in highly non-stationary AHT scenarios. To address this limitation, we propose a novel diffusion-based policy that integrates critical predictive information about teammates into the denoising process. Extensive experiments across three cooperation environments demonstrate that PADiff outperforms existing AHT methods significantly.
- Abstract(参考訳): アドホックチームワーク(AHT)では、エージェントがこれまで見つからなかったチームメイトと協力する必要がある。
AHTの中核的な課題は、未知のチームメイトをその場で予測し、適応できるエゴエージェントを開発することです。
従来のRLベースのアプローチは、1つの期待したリターンを最適化するが、これはしばしばポリシーを1つの支配的な振る舞いに崩壊させ、AHT固有のマルチモーダル協調パターンを捉えるのに失敗する。
本研究では、エージェントのマルチモーダルな振る舞いを捉え、チームメイトとの多様な協調モードをアンロックする拡散ベースのアプローチであるPADiffを紹介する。
しかし、標準拡散モデルは、非定常なAHTシナリオで予測および適応する能力に欠ける。
この制限に対処するために,チームメイトに関する重要な予測情報をデノナイズプロセスに統合する,拡散に基づく新しいポリシーを提案する。
3つの協調環境にわたる大規模な実験により、PADiffは既存のAHT法を著しく上回っていることが示された。
関連論文リスト
- Multi-Agent Conditional Diffusion Model with Mean Field Communication as Wireless Resource Allocation Planner [16.759740918605768]
無線通信システムでは、QoS(Quality of Service)の強化において、効率的かつ適応的なリソース割り当てが重要な役割を担っている。
対照的に、分散トレーニングと分散実行(DTDE)パラダイムは、分散学習と意思決定を可能にする。
分散通信資源管理のためのマルチエージェント条件拡散モデルプランナ(MACDMP)を提案する。
論文 参考訳(メタデータ) (2025-10-27T03:42:18Z) - ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork [24.374221820972707]
Ad Hoc Teamwork(AHT)として知られるマルチエージェント学習の基本的な一般化課題である。
本稿では,AHTエージェントと対向チームメイトジェネレータ間のオープンエンド学習プロセスとして問題を再構築し,AHTの統一フレームワークを提案する。
多様な2人プレイ環境における実験は、ROTATEがチームメイトの評価の見当たらないセットに一般化する際に、ベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:24:54Z) - HyperMARL: Adaptive Hypernetworks for Multi-Agent RL [13.029350832809582]
マルチエージェント強化学習(MARL)は、均一性、特殊化、混合行動を表現するためのポリシーを必要とする。
エージェント条件のハイパーネットワークはエージェント固有のパラメータを生成し、観察とエージェント条件の勾配を分離することができる。
提案手法であるHyperMARLは,先行研究の複雑さを回避し,政策勾配の分散を実証的に低減する。
論文 参考訳(メタデータ) (2024-12-05T15:09:51Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MA-Dreamer: Coordination and communication through shared imagination [5.253168177256072]
エージェント中心およびグローバルな環境の微分可能なモデルの両方を利用するモデルベース手法であるMA-Dreamerを提案する。
実験の結果,長期話者リスナータスクや強い部分観測性を持つ協調ゲームにおいて,MA-Dreamerはコーディネートを効果的に活用する解を見出すことができた。
論文 参考訳(メタデータ) (2022-04-10T13:54:26Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。