論文の概要: Bidirectional Distillation: A Mixed-Play Framework for Multi-Agent Generalizable Behaviors
- arxiv url: http://arxiv.org/abs/2505.11100v1
- Date: Fri, 16 May 2025 10:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.681689
- Title: Bidirectional Distillation: A Mixed-Play Framework for Multi-Agent Generalizable Behaviors
- Title(参考訳): 双方向蒸留:多エージェント一般化行動のための混合プレイフレームワーク
- Authors: Lang Feng, Jiahao Lin, Dong Xing, Li Zhang, De Ma, Gang Pan,
- Abstract要約: BiDistは、空間内一般化の限界を克服する新しい混合プレイフレームワークである。
BiDistは、過去のポリシーの複雑でコストのかかる保存を必要とせずに、簡潔で効率的なソリューションとして機能する。
本研究は, 多様な協調的, 競争的, 社会的ジレンマ課題におけるBiDistの顕著な一般化能力を示すものである。
- 参考スコア(独自算出の注目度): 20.2549044442204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Population-population generalization is a challenging problem in multi-agent reinforcement learning (MARL), particularly when agents encounter unseen co-players. However, existing self-play-based methods are constrained by the limitation of inside-space generalization. In this study, we propose Bidirectional Distillation (BiDist), a novel mixed-play framework, to overcome this limitation in MARL. BiDist leverages knowledge distillation in two alternating directions: forward distillation, which emulates the historical policies' space and creates an implicit self-play, and reverse distillation, which systematically drives agents towards novel distributions outside the known policy space in a non-self-play manner. In addition, BiDist operates as a concise and efficient solution without the need for the complex and costly storage of past policies. We provide both theoretical analysis and empirical evidence to support BiDist's effectiveness. Our results highlight its remarkable generalization ability across a variety of cooperative, competitive, and social dilemma tasks, and reveal that BiDist significantly diversifies the policy distribution space. We also present comprehensive ablation studies to reinforce BiDist's effectiveness and key success factors. Source codes are available in the supplementary material.
- Abstract(参考訳): 人口人口の一般化はマルチエージェント強化学習(MARL)において困難な問題であり、特にエージェントが見当たらないコプレイヤーに遭遇する場合である。
しかし、既存のセルフプレイベースの手法は、内部空間の一般化の制限によって制約される。
本研究では,MARLにおけるこの制限を克服するために,双方向蒸留(Bidirectional Distillation, BiDist)を提案する。
フォワード蒸留(フォワード蒸留)は、歴史的政策空間をエミュレートし、暗黙の自己プレーを生成するものであり、逆蒸留(リバース蒸留)は、既知の政策空間の外側の新たな分布に対して、非自己プレイでエージェントを体系的に駆動する。
さらに、BiDistは、過去のポリシーの複雑でコストのかかる保存を必要とせずに、簡潔で効率的なソリューションとして機能する。
我々は,BiDistの有効性を裏付ける理論的分析と実証的証拠の両方を提供する。
この結果は, 協調的, 競争的, 社会的ジレンマ課題にまたがる顕著な一般化能力を明らかにするとともに, BiDistが政策分布空間を著しく多様化していることを明らかにする。
また,BiDistの有効性と重要な成功要因を高めるための包括的アブレーション研究も提案する。
ソースコードは補足資料で入手できる。
関連論文リスト
- Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフラインマルチエージェント強化学習(MARL)は、分散シフトと関節行動空間の高次元性に起因する重要な課題に直面している。
多様なマルチエージェント協調パターンをモデル化するための新しい2段階フレームワークを提案する。
本手法は,協調型マルチエージェントシステムにおけるオフライン協調と平衡選択に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Mutual Distillation Learning For Person Re-Identification [27.350415735863184]
MDPR(Multual Distillation Learning for Person Re-identification)という新しい手法を提案する。
本手法は,一様水平分割戦略により局所特徴を抽出するハードコンテンツブランチと,前景と背景を動的に区別するソフトコンテンツブランチの2つを含む。
提案手法はDukeC-reIDデータセット上のmAP/Rank-1の8.7%/94.4%の驚くべき値を得る。
論文 参考訳(メタデータ) (2024-01-12T07:49:02Z) - Counterfactual Conservative Q Learning for Offline Multi-agent
Reinforcement Learning [54.788422270960496]
我々はCounterFactual conservative Q-Learning (CFCQL) という新しいマルチエージェントオフラインRLアルゴリズムを提案する。
CFCQLは、各エージェントの保守的正規化を非現実的に別々に計算し、それらを線形に組み合わせて全体的な保守的価値推定を実現する。
単一エージェントの保守的手法のように, まだ過小評価特性と性能保証を享受していることが証明されているが, 誘導正規化と安全な政策改善境界はエージェント番号とは無関係である。
論文 参考訳(メタデータ) (2023-09-22T08:10:25Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。