論文の概要: Multi-Mode Online Knowledge Distillation for Self-Supervised Visual
Representation Learning
- arxiv url: http://arxiv.org/abs/2304.06461v2
- Date: Thu, 1 Jun 2023 06:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:44:35.269830
- Title: Multi-Mode Online Knowledge Distillation for Self-Supervised Visual
Representation Learning
- Title(参考訳): 自己監督型視覚表現学習のための多モードオンライン知識蒸留
- Authors: Kaiyou Song, Jin Xie, Shan Zhang, Zimeng Luo
- Abstract要約: 自己教師付き視覚表現学習を促進するための多モードオンライン知識蒸留法(MOKD)を提案する。
MOKDでは、2つの異なるモデルが自己監督的な方法で協調的に学習する。
さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
- 参考スコア(独自算出の注目度): 13.057037169495594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has made remarkable progress in visual
representation learning. Some studies combine SSL with knowledge distillation
(SSL-KD) to boost the representation learning performance of small models. In
this study, we propose a Multi-mode Online Knowledge Distillation method (MOKD)
to boost self-supervised visual representation learning. Different from
existing SSL-KD methods that transfer knowledge from a static pre-trained
teacher to a student, in MOKD, two different models learn collaboratively in a
self-supervised manner. Specifically, MOKD consists of two distillation modes:
self-distillation and cross-distillation modes. Among them, self-distillation
performs self-supervised learning for each model independently, while
cross-distillation realizes knowledge interaction between different models. In
cross-distillation, a cross-attention feature search strategy is proposed to
enhance the semantic feature alignment between different models. As a result,
the two models can absorb knowledge from each other to boost their
representation learning performance. Extensive experimental results on
different backbones and datasets demonstrate that two heterogeneous models can
benefit from MOKD and outperform their independently trained baseline. In
addition, MOKD also outperforms existing SSL-KD methods for both the student
and teacher models.
- Abstract(参考訳): 自己教師付き学習(SSL)は視覚表現学習において顕著な進歩を遂げている。
SSLと知識蒸留(SSL-KD)を組み合わせて、小型モデルの表現学習性能を高める研究もある。
本研究では,自己教師付き視覚表現学習を促進するマルチモードオンライン知識蒸留法(mokd)を提案する。
静的事前訓練された教師から学生に知識を伝達する既存のSSL-KD法とは異なり、MOKDでは2つの異なるモデルが自己指導的な方法で協調的に学習する。
具体的には、mokdは自己蒸留モードと相互蒸留モードの2つの蒸留モードからなる。
自己蒸留は各モデルに対して独立して自己教師付き学習を行い、相互蒸留は異なるモデル間の知識相互作用を実現する。
クロス蒸留では,異なるモデル間の意味的特徴アライメントを強化するために,クロスアテンション特徴探索戦略を提案する。
その結果、2つのモデルは相互に知識を吸収し、表現学習性能を高めることができる。
異なるバックボーンとデータセットの広範な実験結果から、2つの異種モデルがMOKDの恩恵を受け、独立に訓練されたベースラインよりも優れていることが示された。
さらに、MOKDは学生モデルと教師モデルの両方で既存のSSL-KDメソッドよりも優れている。
関連論文リスト
- Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。