論文の概要: Right Time to Learn:Promoting Generalization via Bio-inspired Spacing Effect in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2502.06192v1
- Date: Mon, 10 Feb 2025 06:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:27.849308
- Title: Right Time to Learn:Promoting Generalization via Bio-inspired Spacing Effect in Knowledge Distillation
- Title(参考訳): 学習すべき時間:知識蒸留におけるバイオインスパイアされたスペーシング効果による一般化の促進
- Authors: Guanglong Sun, Hongwei Yan, Liyuan Wang, Qian Li, Bo Lei, Yi Zhong,
- Abstract要約: 知識蒸留(KD)はディープニューラルネットワーク(DNN)を訓練するための強力な戦略である
ここでは、オンラインKDとセルフKDの両方の有効性を改善するために、Spaced KDという、アクセス可能で互換性のある戦略を提案する。
- 参考スコア(独自算出の注目度): 22.405358471722273
- License:
- Abstract: Knowledge distillation (KD) is a powerful strategy for training deep neural networks (DNNs). Although it was originally proposed to train a more compact ``student'' model from a large ``teacher'' model, many recent efforts have focused on adapting it to promote generalization of the model itself, such as online KD and self KD. % as an effective way Here, we propose an accessible and compatible strategy named Spaced KD to improve the effectiveness of both online KD and self KD, in which the student model distills knowledge from a teacher model trained with a space interval ahead. This strategy is inspired by a prominent theory named \emph{spacing effect} in biological learning and memory, positing that appropriate intervals between learning trials can significantly enhance learning performance. With both theoretical and empirical analyses, we demonstrate that the benefits of the proposed Spaced KD stem from convergence to a flatter loss landscape during stochastic gradient descent (SGD). We perform extensive experiments to validate the effectiveness of Spaced KD in improving the learning performance of DNNs (e.g., the performance gain is up to 2.31\% and 3.34\% on Tiny-ImageNet over online KD and self KD, respectively).
- Abstract(参考訳): 知識蒸留(KD)はディープニューラルネットワーク(DNN)を訓練するための強力な戦略である。
もともと「教師」モデルからよりコンパクトな「学生」モデルを訓練することを提案したが、近年ではオンラインKDやセルフKDなど、モデル自体の一般化を促進することに注力している。
ここでは,オンラインKDと自己KDの両方の有効性を改善するために,空間間隔で学習した教師モデルから知識を抽出するSpaced KDという手法を提案する。
この戦略は、生物学的学習と記憶における「emph{spacing effect」と呼ばれる顕著な理論に着想を得ており、学習試験の間の適切な間隔が学習性能を著しく向上させることを示唆している。
理論的および経験的解析により,提案手法の利点は,確率勾配降下時(SGD)における平坦な損失景観への収束から導かれることを示した。
本研究では、DNNの学習性能向上におけるSpaced KDの有効性を検証するための広範な実験を行う(例えば、オンラインKDとセルフKDに対するTiny-ImageNetでは、それぞれ2.31\%と3.34\%に向上する)。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Dynamic Knowledge Distillation for Pre-trained Language Models [32.63862596630663]
本研究は,学生が学習手順を学習能力に応じて調整することのできる,動的知識蒸留法について考察する。
実験結果から,教師モデルの適切な選択は,生徒モデルの性能を高めることが示唆された。
動的知識蒸留は有望であり、将来的な方向性について議論する。
論文 参考訳(メタデータ) (2021-09-23T11:02:24Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Ensemble Knowledge Distillation for CTR Prediction [46.92149090885551]
我々は知識蒸留(KD)に基づく新しいモデルトレーニング戦略を提案する。
KDは、教師モデルから学んだ知識を学生モデルに移すための教師学生学習フレームワークである。
本稿では,教師のゲーティングや蒸留損失による早期停止など,CTR予測のアンサンブル化を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-08T23:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。