論文の概要: Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion
- arxiv url: http://arxiv.org/abs/2305.09183v1
- Date: Tue, 16 May 2023 05:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:13:40.948693
- Title: Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion
- Title(参考訳): マルチソース情報融合による軽量自己知識蒸留
- Authors: Xucong Wang, Pengchao Han, Lei Guo
- Abstract要約: 知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
- 参考スコア(独自算出の注目度): 3.107478665474057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) is a powerful technique for transferring
knowledge between neural network models, where a pre-trained teacher model is
used to facilitate the training of the target student model. However, the
availability of a suitable teacher model is not always guaranteed. To address
this challenge, Self-Knowledge Distillation (SKD) attempts to construct a
teacher model from itself. Existing SKD methods add Auxiliary Classifiers (AC)
to intermediate layers of the model or use the history models and models with
different input data within the same class. However, these methods are
computationally expensive and only capture time-wise and class-wise features of
data. In this paper, we propose a lightweight SKD framework that utilizes
multi-source information to construct a more informative teacher. Specifically,
we introduce a Distillation with Reverse Guidance (DRG) method that considers
different levels of information extracted by the model, including edge, shape,
and detail of the input data, to construct a more informative teacher.
Additionally, we design a Distillation with Shape-wise Regularization (DSR)
method that ensures a consistent shape of ranked model output for all data. We
validate the performance of the proposed DRG, DSR, and their combination
through comprehensive experiments on various datasets and models. Our results
demonstrate the superiority of the proposed methods over baselines (up to
2.87%) and state-of-the-art SKD methods (up to 1.15%), while being
computationally efficient and robust. The code is available at
https://github.com/xucong-parsifal/LightSKD.
- Abstract(参考訳): 知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術であり、トレーニング済みの教師モデルを使用して、対象の学生モデルのトレーニングを容易にする。
しかし、適切な教師モデルの可用性は必ずしも保証されない。
この課題に対処するため、SKD(Self-Knowledge Distillation)は、教師モデル自体の構築を試みる。
既存のSKDメソッドは、モデルの中間層に補助的分類子(AC)を追加するか、同じクラス内で異なる入力データを持つ履歴モデルとモデルを使用する。
しかし、これらの手法は計算コストが高く、データの時間的特徴とクラス的特徴のみをキャプチャする。
本稿では,マルチソース情報を利用した軽量なSKDフレームワークを提案する。
具体的には,入力データのエッジ,形状,細部など,モデルによって抽出された情報の異なるレベルを考慮した逆誘導法(drg)による蒸留法を導入し,より有意義な教師を構築する。
さらに,全データに対してランク付けされたモデル出力の整合性を保証するDSR法を設計する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
その結果,提案手法のベースライン(最大2.87%)および最先端skd法(最大1.15%)に対する優位性が示され,計算効率と堅牢性が示された。
コードはhttps://github.com/xucong-parsifal/lightskdで入手できる。
関連論文リスト
- Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - Oracle Teacher: Leveraging Target Information for Better Knowledge
Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。
Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。
CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:14:05Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。