論文の概要: Multi-agent In-context Coordination via Decentralized Memory Retrieval
- arxiv url: http://arxiv.org/abs/2511.10030v1
- Date: Fri, 14 Nov 2025 01:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.651202
- Title: Multi-agent In-context Coordination via Decentralized Memory Retrieval
- Title(参考訳): 分散メモリ検索によるマルチエージェントインコンテキストコーディネーション
- Authors: Tao Jiang, Zichuan Lin, Lihe Li, Yi-Chen Li, Cong Guan, Lei Yuan, Zongzhang Zhang, Yang Yu, Deheng Ye,
- Abstract要約: 多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、これまで目に見えなかったタスクにおいて、印象的な数ショットのパフォーマンスを誇示している。
MARL(Multi-Agent Reinforcement Learning)では、エージェントが共通の目標に向かって調整しなければならない。
高速適応によるコーディネーション向上を目的とした新しい手法である分散メモリ検索(MAICC)によるマルチエージェントインコンテキストコーディネーションを提案する。
- 参考スコア(独自算出の注目度): 39.106914463842685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer models, trained on diverse datasets, have demonstrated impressive few-shot performance on previously unseen tasks without requiring parameter updates. This capability has also been explored in Reinforcement Learning (RL), where agents interact with the environment to retrieve context and maximize cumulative rewards, showcasing strong adaptability in complex settings. However, in cooperative Multi-Agent Reinforcement Learning (MARL), where agents must coordinate toward a shared goal, decentralized policy deployment can lead to mismatches in task alignment and reward assignment, limiting the efficiency of policy adaptation. To address this challenge, we introduce Multi-agent In-context Coordination via Decentralized Memory Retrieval (MAICC), a novel approach designed to enhance coordination by fast adaptation. Our method involves training a centralized embedding model to capture fine-grained trajectory representations, followed by decentralized models that approximate the centralized one to obtain team-level task information. Based on the learned embeddings, relevant trajectories are retrieved as context, which, combined with the agents' current sub-trajectories, inform decision-making. During decentralized execution, we introduce a novel memory mechanism that effectively balances test-time online data with offline memory. Based on the constructed memory, we propose a hybrid utility score that incorporates both individual- and team-level returns, ensuring credit assignment across agents. Extensive experiments on cooperative MARL benchmarks, including Level-Based Foraging (LBF) and SMAC (v1/v2), show that MAICC enables faster adaptation to unseen tasks compared to existing methods. Code is available at https://github.com/LAMDA-RL/MAICC.
- Abstract(参考訳): 多様なデータセットに基づいてトレーニングされた大規模なトランスフォーマーモデルは、パラメータ更新を必要とせずに、これまで見られなかったタスクに対して、印象的な数ショットのパフォーマンスを誇示している。
この機能はReinforcement Learning (RL)でも検討されており、エージェントが環境と対話してコンテキストを検索し、累積報酬を最大化し、複雑な設定で強い適応性を示す。
しかし,MARL(Multi-Agent Reinforcement Learning)では,エージェントが共通の目標に向かって調整しなければならないため,分散された政策展開がタスクアライメントや報酬割り当てのミスマッチを引き起こし,政策適応の効率が制限される。
この課題に対処するため,分散メモリ検索(MAICC)によるマルチエージェント・インコンテキストコーディネートを導入し,高速適応によるコーディネーション向上を図った。
提案手法では, 微粒な軌道表現を捉えるために, 集中型埋め込みモデルを訓練し, 続いて, 集中型モデルに近似して, チームレベルのタスク情報を得る。
学習された埋め込みに基づいて、関連する軌跡をコンテキストとして検索し、エージェントの現在のサブトラジェクトリと組み合わせることで、意思決定を通知する。
分散実行中、テストタイムオンラインデータをオフラインメモリと効果的にバランスをとる新しいメモリ機構を導入する。
構築したメモリに基づいて,個人レベルのリターンとチームレベルのリターンを組み込んだハイブリッドユーティリティスコアを提案し,エージェント間のクレジット割り当てを保証する。
Level-Based Foraging (LBF) や SMAC (v1/v2) を含む協調型MARLベンチマークの大規模な実験は、MAICCが既存の手法と比較して、見つからないタスクへの適応を高速化できることを示している。
コードはhttps://github.com/LAMDA-RL/MAICCで入手できる。
関連論文リスト
- Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。