Fugu-MT 論文翻訳(概要): Invariant Causal Knowledge Distillation in Neural Networks

論文の概要: Invariant Causal Knowledge Distillation in Neural Networks

arxiv url: http://arxiv.org/abs/2407.11802v2
Date: Mon, 9 Sep 2024 06:17:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:41:10.460341
Title: Invariant Causal Knowledge Distillation in Neural Networks
Title（参考訳）: ニューラルネットワークにおける不変因果知識蒸留
Authors: Nikolaos Giakoumoglou, Tania Stathaki,
Abstract要約: 本稿では,知識蒸留の高度化を目的とした新手法であるICDについて紹介する。 ICDは、生徒モデルの表現が教師の出力に関して差別的かつ不変であることを保証する。 CIFAR-100 と ImageNet ILSVRC-2012 の結果,ICD は従来の KD 技術より優れ,最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 6.24302896438145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) involves transferring the knowledge from one neural network to another, often from a larger, well-trained model (teacher) to a smaller, more efficient model (student). Traditional KD methods minimize the Kullback-Leibler (KL) divergence between the probabilistic outputs of the teacher and student networks. However, this approach often overlooks crucial structural knowledge embedded within the teacher's network. In this paper, we introduce Invariant Consistency Distillation (ICD), a novel methodology designed to enhance KD by ensuring that the student model's representations are both discriminative and invariant with respect to the teacher's outputs. Our approach is based on causal inference principles and combines contrastive learning with an explicit invariance penalty, capturing significantly more information from the teacher's representation. ICD uses an efficient, parameter-free approach for flexible teacher-student alignment. We provide a theoretical foundation for ICD and demonstrate its effectiveness through extensive experiments. Our results on CIFAR-100 and ImageNet ILSVRC-2012 show that ICD outperforms traditional KD techniques and surpasses state-of-the-art methods. In some cases, the student model even exceeds the teacher model in terms of accuracy. Furthermore, we successfully apply our method to other datasets, such as Tiny ImageNet and STL-10, demonstrating superior cross-dataset generalization. Code is available at https://github.com/giakoumoglou/distillers.
Abstract（参考訳）: 知識蒸留(KD)は、あるニューラルネットワークから別のニューラルネットワークへ、多くの場合、より大きく訓練されたモデル(教師)からより小さく、より効率的なモデル(学生)へ、知識を伝達する。従来のKD手法は、教師と学生のネットワークの確率的出力間のKL(Kullback-Leibler)のばらつきを最小限に抑える。しかし、このアプローチはしばしば教師のネットワークに埋め込まれた重要な構造的知識を見落としている。本稿では,教師の出力に関して,学生モデルの表現が差別的かつ不変であることを保証することによって,KDを強化するための新しい手法である,不変性蒸留(ICD)を紹介する。我々のアプローチは因果推論の原則に基づいており、対照的な学習と明示的な不変性のペナルティを組み合わせ、教師の表現からはるかに多くの情報を取得する。 ICDは、フレキシブルな教師と学生のアライメントのために、効率的でパラメータフリーなアプローチを使用している。我々は、ICDの理論的基礎を提供し、広範囲な実験を通してその効果を実証する。 CIFAR-100 と ImageNet ILSVRC-2012 の結果,ICD は従来の KD 技術より優れ,最先端の手法よりも優れていた。学生モデルは、正確性の観点からも教師モデルを超えている場合もある。さらに,Tiny ImageNetやSTL-10などの他のデータセットに適用し,優れたクロスデータセットの一般化を示す。コードはhttps://github.com/giakoumoglou/distillers.comで入手できる。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Dynamic Guidance Adversarial Distillation with Enhanced Teacher Knowledge [17.382306203152943]
Dynamic Guidance Adversarial Distillation (DGAD) フレームワークは、差分サンプルの重要性の課題に取り組む。 DGADは蒸留焦点を動的に調整するためにミスクラス化認識分割(MAP)を使用している。 Error-corrective Label Swapping (ELS) は、クリーン入力と逆入力の両方で教師の誤分類を補正する。
論文参考訳（メタデータ） (2024-09-03T05:52:37Z)
Relational Representation Distillation [6.24302896438145]
知識蒸留は、巨大で面倒な教師モデルからよりコンパクトな学生モデルへの知識の伝達を伴う。標準的アプローチは教師の内部表現における重要な構造的関係を捉えるのに失敗する。近年の進歩は対照的な学習目標に変わったが、これらの手法はインスタンス識別を通じて過度に厳格な制約を課している。本手法では,教師と生徒の分布に異なる温度パラメータを用い,よりシャープな学生出力を用いて,二次的類似性を保ちながら一次関係の正確な学習を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:56:13Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文参考訳（メタデータ） (2023-11-23T11:34:48Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Data Upcycling Knowledge Distillation for Image Super-Resolution [25.753554952896096]
知識蒸留(KD)は、教師モデルから生徒モデルへのタスク関連知識の伝達によって、ディープニューラルネットワークを圧縮する。本稿では,教師モデルの知識を学習者モデルに伝達するために,学習データから得られたドメイン内データを用いて,データリサイクル知識蒸留(DuKD)を提案する。
論文参考訳（メタデータ） (2023-09-25T14:13:26Z)
Categorical Relation-Preserving Contrastive Knowledge Distillation for Medical Image Classification [75.27973258196934]
そこで本研究では,一般的な平均教師モデルであるCRCKD(Categorical Relation-Reserving Contrastive Knowledge Distillation)アルゴリズムを提案する。この正規化により、学生モデルの特徴分布はクラス内類似度が高く、クラス間分散を示す。 CCDとCRPの貢献により、我々のCRCKDアルゴリズムはより包括的に関係知識を蒸留することができる。
論文参考訳（メタデータ） (2021-07-07T13:56:38Z)
Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文参考訳（メタデータ） (2020-12-15T23:43:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。