論文の概要: Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective
- arxiv url: http://arxiv.org/abs/2501.07040v1
- Date: Mon, 13 Jan 2025 03:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:21.710600
- Title: Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective
- Title(参考訳): 蒸留における知識の再考--文脈内サンプル検索の視点から
- Authors: Jinjing Zhu, Songze Li, Lin Wang,
- Abstract要約: 本稿では,蒸留の知識を再定義し,各試料と対応するインコンテキストサンプルとの関係を把握する。
KDは学習ラベルのスムーズな正規化(LSR)の一種であるので,まず,教師のインコンテキストサンプルからの知識が,学習者のトレーニングとそれに対応するサンプルの定期化に不可欠であることを示す理論的分析を行う。
そこで本研究では,様々なKDパラダイムにおいて,その優位性を示す新しいコンテキスト内知識蒸留(IC-KD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.598028759430738
- License:
- Abstract: Conventional knowledge distillation (KD) approaches are designed for the student model to predict similar output as the teacher model for each sample. Unfortunately, the relationship across samples with same class is often neglected. In this paper, we explore to redefine the knowledge in distillation, capturing the relationship between each sample and its corresponding in-context samples (a group of similar samples with the same or different classes), and perform KD from an in-context sample retrieval perspective. As KD is a type of learned label smoothing regularization (LSR), we first conduct a theoretical analysis showing that the teacher's knowledge from the in-context samples is a crucial contributor to regularize the student training with the corresponding samples. Buttressed by the analysis, we propose a novel in-context knowledge distillation (IC-KD) framework that shows its superiority across diverse KD paradigms (offline, online, and teacher-free KD). Firstly, we construct a feature memory bank from the teacher model and retrieve in-context samples for each corresponding sample through retrieval-based learning. We then introduce Positive In-Context Distillation (PICD) to reduce the discrepancy between a sample from the student and the aggregated in-context samples with the same class from the teacher in the logit space. Moreover, Negative In-Context Distillation (NICD) is introduced to separate a sample from the student and the in-context samples with different classes from the teacher in the logit space. Extensive experiments demonstrate that IC-KD is effective across various types of KD, and consistently achieves state-of-the-art performance on CIFAR-100 and ImageNet datasets.
- Abstract(参考訳): 従来の知識蒸留(KD)アプローチは,各サンプルの教師モデルと同様の出力を予測するために,学生モデルのために設計されている。
残念ながら、同じクラスを持つサンプル間の関係は無視されることが多い。
本稿では, 蒸留の知識を再定義し, それぞれのサンプルと対応するインコンテキストサンプル(同一又は異なるクラスを持つ類似サンプル群)の関係を把握し, インコンテキストサンプル検索の観点からKDを行う。
KDは学習ラベルのスムーズな正規化(LSR)の一種であるので,まず,教師のインコンテキストサンプルからの知識が,学習者のトレーニングとそれに対応するサンプルの定期化に不可欠であることを示す理論的分析を行う。
そこで本研究では, 多様なKDパラダイム(オフライン, オンライン, 教師なしKD)において, その優位性を示す新しいコンテキスト内知識蒸留(IC-KD)フレームワークを提案する。
まず、教師モデルから特徴記憶バンクを構築し、検索に基づく学習を通して、各サンプルのコンテキスト内サンプルを検索する。
次に、学生のサンプルと、ロジット空間の教師と同じクラスで集約されたインコンテキストサンプルとの差を低減するために、ポジティブなインコンテキスト蒸留(PICD)を導入する。
さらに、学生からサンプルと、ロジット空間の教師から異なるクラスを持つインコンテキストサンプルを分離するために、Native In-Context Distillation (NICD)を導入している。
IC-KDは様々な種類のKDで有効であり、CIFAR-100およびImageNetデータセット上で常に最先端のパフォーマンスを実現する。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective [48.99488315273868]
本研究では,試料内およびサンプル間制約によるサンプルワイドアライメント問題として定式化できる,対照的な知識蒸留手法を提案する。
本手法は, 数値を考慮し, 同一試料中のロジット差を最小化する。
CIFAR-100, ImageNet-1K, MS COCOの3つのデータセットについて総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-22T11:52:40Z) - Twice Class Bias Correction for Imbalanced Semi-Supervised Learning [59.90429949214134]
textbfTwice textbfClass textbfBias textbfCorrection (textbfTCBC) と呼ばれる新しいアプローチを導入する。
トレーニング過程におけるモデルパラメータのクラスバイアスを推定する。
非ラベル標本に対してモデルの擬似ラベルに二次補正を適用する。
論文 参考訳(メタデータ) (2023-12-27T15:06:36Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Improved knowledge distillation by utilizing backward pass knowledge in
neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。
本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。
自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文 参考訳(メタデータ) (2023-01-27T22:07:38Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。