論文の概要: KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.06691v1
- Date: Wed, 08 Apr 2026 05:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.349448
- Title: KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning
- Title(参考訳): KD-MARL:マルチエージェント強化学習における知識蒸留
- Authors: Monirul Islam Pavel, Siyi Hu, Muhammad Anwar Masum, Mahardhika Pratama, Ryszard Kowalczyk, Zehong Jimmy Cao,
- Abstract要約: マルチエージェント強化学習システムは、限られた計算メモリと推論時間によって制約される。
本稿では,多エージェント強化学習のための知識蒸留手法KD MARLを提案する。
- 参考スコア(独自算出の注目度): 11.62333064482315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real world deployment of multi agent reinforcement learning MARL systems is fundamentally constrained by limited compute memory and inference time. While expert policies achieve high performance they rely on costly decision cycles and large scale models that are impractical for edge devices or embedded platforms. Knowledge distillation KD offers a promising path toward resource aware execution but existing KD methods in MARL focus narrowly on action imitation often neglecting coordination structure and assuming uniform agent capabilities. We propose resource aware Knowledge Distillation for Multi Agent Reinforcement Learning KD MARL a two stage framework that transfers coordinated behavior from a centralized expert to lightweight decentralized student agents. The student policies are trained without a critic relying instead on distilled advantage signals and structured policy supervision to preserve coordination under heterogeneous and limited observations. Our approach transfers both action level behavior and structural coordination patterns from expert policies while supporting heterogeneous student architectures allowing each agent model capacity to match its observation complexity which is crucial for efficient execution under partial or limited observability and limited onboard resources. Extensive experiments on SMAC and MPE benchmarks demonstrate that KD MARL achieves high performance retention while substantially reducing computational cost. Across standard multi agent benchmarks KD MARL retains over 90 percent of expert performance while reducing computational cost by up to 28.6 times FLOPs. The proposed approach achieves expert level coordination and preserves it through structured distillation enabling practical MARL deployment across resource constrained onboard platforms.
- Abstract(参考訳): マルチエージェント強化学習MARLシステムの実世界展開は,計算メモリと推論時間に制限されている。
専門家のポリシーは高いパフォーマンスを達成する一方で、エッジデバイスや組み込みプラットフォームでは実行不可能な、コストのかかる意思決定サイクルと大規模なモデルに依存しています。
知識蒸留KDは、資源を意識した実行に向けて有望な経路を提供するが、MARLの既存のKD法は、しばしば協調構造を無視し、一様エージェント能力を仮定するアクション模倣に焦点を絞っている。
集中型専門家から軽量分散型学生エージェントへ協調行動の伝達を行う2段階フレームワークKD MARLを提案する。
学生政策は、不均一で限られた観察の下で調整を維持するために、蒸留された有利な信号と構造化された政策監督に頼らずに、批判なしに訓練される。
提案手法は,各エージェントモデルキャパシティが,部分的あるいは限定的な可観測性の下での効率的な実行と限られたオンボードリソースの下での効率的な実行に不可欠である観察複雑性に一致するように,不均一な学生アーキテクチャをサポートしながら,専門家の方針から行動レベル行動と構造的調整パターンの両方を伝達する。
SMAC および MPE ベンチマークの大規模な実験により、KD MARL は計算コストを大幅に削減し、高い性能の保持を実現することが示された。
標準的なマルチエージェントベンチマークであるKD MARLは、専門家のパフォーマンスの90%以上を保持し、計算コストを最大28.6倍削減する。
提案手法は, 資源制約のあるオンボードプラットフォーム上でのMARLの実用的展開を可能にするため, 専門家レベルの調整を実現し, 構造蒸留により保存する。
関連論文リスト
- Hierarchical Lead Critic based Multi-Agent Reinforcement Learning [1.4323566945483497]
本稿では,階層レベルの異なる複数の視点から学習する,新しい逐次学習手法とMARLアーキテクチャを提案する。
HLCは、複数の階層を導入し、局所的およびグローバル的な視点を活用し、高いサンプル効率とロバストなポリシーでパフォーマンスを向上させることを実証している。
論文 参考訳(メタデータ) (2026-02-25T08:33:39Z) - Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs [26.165537937650413]
デプロイメント中に厳格な制約の下で運用するためのトレーニングエージェントは、重大な課題を提示する。
本稿では,訓練中の制約を徐々に厳しくし,エージェントが段階的にデプロイメント要求をマスターできるようにするカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2025-11-04T16:14:56Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning [72.53466291156604]
教師の指導(KD)と自己探索(RL)を通じて推論モデルを協調的に最適化するテキスト化後学習フレームワークである textbfKDRL を提案する。
まず、GRPOとKDを統合する統一目的を定式化し、異なるKL近似、KL係数、報酬誘導KD戦略が学習後の全体的なダイナミクスと性能にどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-02T19:46:41Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。