論文の概要: Triplet Loss for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2004.08116v1
- Date: Fri, 17 Apr 2020 08:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:50:07.867273
- Title: Triplet Loss for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのトリプルト損失
- Authors: Hideki Oki, Motoshi Abe, Junichi Miyao, Takio Kurita
- Abstract要約: 知識蒸留の目的は,教師モデルと学生モデルとの類似性を高めることである。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は,異なる出力の差を明らかにすることができ,学生モデルの性能を向上させることができると考えている。
- 参考スコア(独自算出の注目度): 2.683996597055128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning has spread rapidly, and deeper, larger models
have been proposed. However, the calculation cost becomes enormous as the size
of the models becomes larger. Various techniques for compressing the size of
the models have been proposed to improve performance while reducing
computational costs. One of the methods to compress the size of the models is
knowledge distillation (KD). Knowledge distillation is a technique for
transferring knowledge of deep or ensemble models with many parameters (teacher
model) to smaller shallow models (student model). Since the purpose of
knowledge distillation is to increase the similarity between the teacher model
and the student model, we propose to introduce the concept of metric learning
into knowledge distillation to make the student model closer to the teacher
model using pairs or triplets of the training samples. In metric learning, the
researchers are developing the methods to build a model that can increase the
similarity of outputs for similar samples. Metric learning aims at reducing the
distance between similar and increasing the distance between dissimilar. The
functionality of the metric learning to reduce the differences between similar
outputs can be used for the knowledge distillation to reduce the differences
between the outputs of the teacher model and the student model. Since the
outputs of the teacher model for different objects are usually different, the
student model needs to distinguish them. We think that metric learning can
clarify the difference between the different outputs, and the performance of
the student model could be improved. We have performed experiments to compare
the proposed method with state-of-the-art knowledge distillation methods.
- Abstract(参考訳): 近年,ディープラーニングが急速に普及し,より深いモデルが提案されている。
しかし、モデルのサイズが大きくなるにつれて計算コストは膨大になる。
モデルのサイズを圧縮する様々な手法が提案され、計算コストを削減しながら性能を向上させる。
モデルのサイズを圧縮する方法の1つは知識蒸留(KD)である。
知識蒸留は、多くのパラメータ(教師モデル)を持つ深層またはアンサンブルモデルの知識をより浅いモデル(学生モデル)に伝達する技術である。
知識蒸留の目的は,教師モデルと生徒モデルの類似性を高めることにあるため,学習サンプルのペアや三重項を用いて,生徒モデルを教師モデルに近いものにするために,知識蒸留にメートル法学習の概念を導入することを提案する。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は、類似した距離と異種間の距離を増大させることを目的としている。
類似したアウトプット間の差を減らすためのメトリック学習の機能は、教師モデルのアウトプットと生徒モデルの差を減らすための知識蒸留に利用できる。
異なる対象に対する教師モデルの出力は通常異なるので、生徒モデルはそれらを区別する必要がある。
メトリック学習は,異なる出力の違いを明確にし,学生モデルの性能を向上させることができると考えている。
提案手法と最先端の知識蒸留法との比較実験を行った。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。