論文の概要: PC3D: Zero-Shot Cooperation Across Variable Rosters via Personalized Context Distillation
- arxiv url: http://arxiv.org/abs/2605.10377v1
- Date: Mon, 11 May 2026 11:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.760111
- Title: PC3D: Zero-Shot Cooperation Across Variable Rosters via Personalized Context Distillation
- Title(参考訳): PC3D:パーソナライズされたコンテキスト蒸留による可変ロースター間のゼロショット協調
- Authors: Ahmet Onur Akman, Rafał Kucharski,
- Abstract要約: PC3Dは、ローカルなインタラクション履歴からパーソナライズされた調整コンテキストを復元し、使用するための分散ポリシーの訓練方法である。
実行時に各エージェントは、ローカル履歴から自身のコンテキストを予測し、それを適応して意思決定を条件付ける。
3つの協調的なMARLベンチマークで、PC3Dは、見かけのロスターサイズと見えないロスターサイズの両方で評価されたベースラインよりも高いリターンを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative multi-agent reinforcement learning often assumes a fixed execution team, yet many decentralized systems must operate with varying numbers of active agents during deployment. We study this setting under episodic roster variation: each episode is executed by a set of homogeneous agents, with the team size varying across episodes. Agents act only from local histories, without execution-time communication, privileged coordinators, or online retraining. Therefore, effective cooperation requires each agent to recover relevant context about the active team and adapt its behavior accordingly. To this end, we propose PC3D (Personalized Central Coordination Context Distillation), a method for training decentralized policies to recover and use personalized coordination context from local interaction histories. During training, a set-structured centralized teacher compresses the active team into coordination tokens and personalizes them into agent-specific contexts, which are distilled into decentralized policies. At execution, each agent predicts its own context from local history and adaptively uses it to condition decision-making. Across three cooperative MARL benchmarks, PC3D achieves higher returns than the evaluated baselines with both seen and unseen roster sizes, and ablations attribute these gains to both context distillation and adaptive context use.
- Abstract(参考訳): 協調的マルチエージェント強化学習は、しばしば固定実行チームを仮定するが、多くの分散システムは、デプロイ中に様々な数のアクティブエージェントで運用する必要がある。
各エピソードは同種エージェントによって実行され、各エピソードのチームサイズは異なる。
エージェントは、ローカルな履歴、実行時のコミュニケーション、特権的コーディネータ、オンラインリトレーニングなしでのみ行動する。
したがって、効果的に協力するためには、各エージェントがアクティブなチームに関する関連するコンテキストを回復し、その振る舞いを順応する必要がある。
そこで本研究では,ローカルインタラクション履歴からパーソナライズされたコーディネーションコンテキストを復元し,利用するための分散ポリシをトレーニングするPC3Dを提案する。
トレーニング中、設定された集中型教師は、アクティブチームをコーディネートトークンに圧縮し、エージェント固有のコンテキストにパーソナライズし、分散ポリシーに蒸留する。
実行時に各エージェントは、ローカル履歴から自身のコンテキストを予測し、それを適応して意思決定を条件付ける。
3つの協調的なMARLベンチマークにおいて、PC3Dは、見かけのロスターサイズと見えないロスターサイズの両方で評価されたベースラインよりも高いリターンを達成する。
関連論文リスト
- Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size [54.0714652192002]
物理に基づくヒューマノイド制御は、現実的でハイパフォーマンスな単一エージェントの動作を可能にするために顕著な進歩を遂げた。
我々は,複数の協力エージェント間で協調的なHOIを処理するための,単一の分散政策を実現するためのフレームワークであるTeamHOIを提案する。
論文 参考訳(メタデータ) (2026-03-09T05:52:13Z) - Multi-agent In-context Coordination via Decentralized Memory Retrieval [39.106914463842685]
多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。
MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。
高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
論文 参考訳(メタデータ) (2025-11-13T07:08:31Z) - Fully Decentralized Cooperative Multi-Agent Reinforcement Learning is A Context Modeling Problem [26.317044969022277]
本稿では,各エージェントが各状態,その局所行動,共有報酬のみを観察する,完全分散型協調型マルチエージェント強化学習について検討する。
他のエージェントのアクションにアクセスすることができないことは、値関数の更新や値関数の推定時の相対的な過一般化において非定常性をもたらすことが多い。
本研究では,各エージェントが局所的に認識するタスクをコンテキストマルコフ決定プロセスとして定式化する,DEC(Dynamics-Aware Context)という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-09-19T01:52:44Z) - Fully-Decentralized MADDPG with Networked Agents [0.5266869303483376]
我々はエージェント間のネットワーク通信アプローチを適用し,MADDPGアルゴリズムを適用した。
我々は,訓練中の通信を可能とし,訓練を分散化するために代理政策を導入する。
分散化アルゴリズムは、計算コストを削減しつつ、経験的テストにおいて元のMADDPGに匹敵する結果を得る。
論文 参考訳(メタデータ) (2025-03-09T20:05:32Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - DisPFL: Towards Communication-Efficient Personalized Federated Learning
via Decentralized Sparse Training [84.81043932706375]
本稿では,分散型(ピアツーピア)通信プロトコルであるDis-PFLにおいて,新たな個人化フェデレーション学習フレームワークを提案する。
Dis-PFLはパーソナライズされたスパースマスクを使用して、エッジ上のスパースローカルモデルをカスタマイズする。
本手法は,計算複雑性の異なる異種ローカルクライアントに容易に適応できることを実証する。
論文 参考訳(メタデータ) (2022-06-01T02:20:57Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Multi-Agent Coordination in Adversarial Environments through Signal
Mediated Strategies [37.00818384785628]
チームメンバーはゲームの開始前に戦略を調整できるが、ゲームのプレイ段階ではコミュニケーションが取れない。
この設定では、エージェントのポリシーが分散的に実行されるため、モデルフリーのRLメソッドはコーディネーションをキャプチャできないことが多い。
我々は,従来の最先端マルチエージェントRLアルゴリズムが適用しなかった場合に,座標平衡に収束することを示す。
論文 参考訳(メタデータ) (2021-02-09T18:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。