論文の概要: Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach
- arxiv url: http://arxiv.org/abs/2002.02202v1
- Date: Thu, 6 Feb 2020 11:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 09:42:47.033340
- Title: Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach
- Title(参考訳): ピアツーピアのチームメイト間の異質な知識の伝達--モデル蒸留アプローチ
- Authors: Zeyue Xue, Shuang Luo, Chao Wu, Pan Zhou, Kaigui Bian and Wei Du
- Abstract要約: 本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
- 参考スコア(独自算出の注目度): 55.83558520598304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peer-to-peer knowledge transfer in distributed environments has emerged as a
promising method since it could accelerate learning and improve team-wide
performance without relying on pre-trained teachers in deep reinforcement
learning. However, for traditional peer-to-peer methods such as action
advising, they have encountered difficulties in how to efficiently expressed
knowledge and advice. As a result, we propose a brand new solution to reuse
experiences and transfer value functions among multiple students via model
distillation. But it is still challenging to transfer Q-function directly since
it is unstable and not bounded. To address this issue confronted with existing
works, we adopt Categorical Deep Q-Network. We also describe how to design an
efficient communication protocol to exploit heterogeneous knowledge among
multiple distributed agents. Our proposed framework, namely Learning and
Teaching Categorical Reinforcement (LTCR), shows promising performance on
stabilizing and accelerating learning progress with improved team-wide reward
in four typical experimental environments.
- Abstract(参考訳): 分散環境におけるpeer-to-peer知識の伝達は、学習を加速し、深層強化学習の教師に頼らずにチーム全体のパフォーマンスを向上させることができるため、有望な方法として浮上している。
しかし,行動アドバイスなどの従来のピアツーピア手法では,知識やアドバイスを効率的に表現する方法が困難であった。
その結果, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新たな手法を提案する。
しかし、不安定で有界でないため、Q-函数を直接転送することは依然として困難である。
この課題に対処するため、私たちはCategorical Deep Q-Networkを採用しています。
また,分散エージェント間の異種知識を利用する効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークであるLTCR(Learning and Teaching Categorical Reinforcement)は,4つの典型的な実験環境において,チーム全体の報酬を改善することで,学習進捗の安定化と促進に有望なパフォーマンスを示す。
関連論文リスト
- Selective Knowledge Sharing for Privacy-Preserving Federated
Distillation without A Good Teacher [52.2926020848095]
フェデレーション学習は、ホワイトボックス攻撃に脆弱で、異種クライアントへの適応に苦慮している。
本稿では,選択的FD(Selective-FD)と呼ばれるFDのための選択的知識共有機構を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:04:19Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - Learning to Retain while Acquiring: Combating Distribution-Shift in
Adversarial Data-Free Knowledge Distillation [31.294947552032088]
データフリーな知識蒸留(DFKD)は、教師から学生ニューラルネットワークへの知識伝達を、訓練データがない状態で行うという基本的な考え方により、近年人気を集めている。
本稿では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)の課題を取り扱うことで,メタ学習にインスパイアされたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T03:50:56Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。
本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文 参考訳(メタデータ) (2022-03-13T13:22:41Z) - Information Theoretic Representation Distillation [20.802135299032308]
情報理論と知識蒸留の代替関係を,最近提案したエントロピー様関数を用いて構築する。
本手法は,知識蒸留とクロスモデル伝達タスクの最先端技術に対する競争性能を実現する。
バイナリ量子化のための新しい最先端技術に光を当てた。
論文 参考訳(メタデータ) (2021-12-01T12:39:50Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Peer Collaborative Learning for Online Knowledge Distillation [69.29602103582782]
Peer Collaborative Learningメソッドは、オンラインアンサンブルとネットワークコラボレーションを統合フレームワークに統合する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, 提案手法は種々のバックボーンネットワークの一般化を著しく改善することを示した。
論文 参考訳(メタデータ) (2020-06-07T13:21:52Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。