論文の概要: Interactive Distillation for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.05407v1
- Date: Thu, 08 Jan 2026 22:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.784613
- Title: Interactive Distillation for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための対話型蒸留法
- Authors: Minwoo Cho, Batuhan Altundas, Matthew Gombolay,
- Abstract要約: HINT (Hierarchical Interactive Teacher-based Transfer) は、MARLのための新しいKDフレームワークである。
階層的RLを活用することで、HINTはスケーラブルでハイパフォーマンスな教師を提供する。
我々は、挑戦的協力領域におけるHINTの評価(例えば、資源配分のためのFireCommander、戦術戦闘のためのMARINE)。
- 参考スコア(独自算出の注目度): 0.49703640686206074
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation (KD) has the potential to accelerate MARL by employing a centralized teacher for decentralized students but faces key bottlenecks. Specifically, there are (1) challenges in synthesizing high-performing teaching policies in complex domains, (2) difficulties when teachers must reason in out-of-distribution (OOD) states, and (3) mismatches between the decentralized students' and the centralized teacher's observation spaces. To address these limitations, we propose HINT (Hierarchical INteractive Teacher-based transfer), a novel KD framework for MARL in a centralized training, decentralized execution setup. By leveraging hierarchical RL, HINT provides a scalable, high-performing teacher. Our key innovation, pseudo off-policy RL, enables the teacher policy to be updated using both teacher and student experience, thereby improving OOD adaptation. HINT also applies performance-based filtering to retain only outcome-relevant guidance, reducing observation mismatches. We evaluate HINT on challenging cooperative domains (e.g., FireCommander for resource allocation, MARINE for tactical combat). Across these benchmarks, HINT outperforms baselines, achieving improvements of 60% to 165% in success rate.
- Abstract(参考訳): 知識蒸留(KD)は、分散化された学生に中央集権的な教師を採用することで、MARLを加速する可能性があるが、重要なボトルネックに直面している。
具体的には,(1)複雑な領域におけるハイパフォーマンスな教育方針の合成,(2)配布外状態(OOD)における教師の理屈の難しさ,(3)分散化学生と集中型教師の観察空間とのミスマッチ,といった課題がある。
これらの制約に対処するため、中央集権的訓練におけるMARLのための新しいKDフレームワークであるHINT(Herarchical Interactive Teacher-based Transfer)を提案する。
階層的RLを活用することで、HINTはスケーラブルでハイパフォーマンスな教師を提供する。
我々の重要な革新である擬似非政治的RLは、教師と生徒の両方の経験を生かして教師の政策を更新し、OOD適応を改善します。
HINTはまた、結果関連ガイダンスのみを保持するためにパフォーマンスベースのフィルタリングを適用し、観察ミスマッチを減らす。
我々は,HINTを挑戦的協調ドメイン(例えば,リソース割り当てのためのFireCommander,戦術的戦闘のためのMARINE)で評価する。
これらのベンチマーク全体で、HINTはベースラインを上回り、成功率60%から165%の改善を実現している。
関連論文リスト
- Conservative Bias in Multi-Teacher Learning: Why Agents Prefer Low-Reward Advisors [0.0]
本稿では,対話型強化学習(IRL)における予期せぬ現象を明らかにする。
異なる報酬構造を持つ教師の選択肢が与えられると、学習エージェントは保守的で低報酬の教師を圧倒的に好んでいる。
論文 参考訳(メタデータ) (2025-12-19T02:38:04Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Learning from Diverse Reasoning Paths with Routing and Collaboration [65.77515749498575]
経路品質フィルタリング,条件付きルーティング,ピアラーニングを組み合わせたQR-Distill(Quality-filtered Routing with Cooperative Distillation)を提案する。
従来のシングルパス蒸留法やマルチパス蒸留法よりもQR-ディスティルが優れていることを示す実験がある。
論文 参考訳(メタデータ) (2025-08-23T01:15:57Z) - TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文 参考訳(メタデータ) (2023-07-06T17:58:40Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。