論文の概要: A Comprehensive Survey on Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2503.12067v1
- Date: Sat, 15 Mar 2025 09:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:31.754838
- Title: A Comprehensive Survey on Knowledge Distillation
- Title(参考訳): 知識蒸留に関する総合的研究
- Authors: Amir M. Mansourian, Rozhan Ahmadi, Masoud Ghafouri, Amir Mohammad Babaei, Elaheh Badali Golezani, Zeynab Yasamani Ghamchi, Vida Ramezanian, Alireza Taherian, Kimia Dinashi, Amirali Miri, Shohreh Kasaei,
- Abstract要約: 知識蒸留(KD)は、上記の問題に対処するために提案された顕著な手法の1つである。
本研究は, 蒸留源, 蒸留方法, 蒸留アルゴリズム, 蒸留の応用, 既存の方法との比較など, さまざまな側面からKDをレビューすることを含む。
本調査では, 拡散モデルのKD, 3次元入力, 基礎モデル, 変圧器, LLMなどの重要なサブカテゴリについて検討した。
- 参考スコア(独自算出の注目度): 6.3968297708975435
- License:
- Abstract: Deep Neural Networks (DNNs) have achieved notable performance in the fields of computer vision and natural language processing with various applications in both academia and industry. However, with recent advancements in DNNs and transformer models with a tremendous number of parameters, deploying these large models on edge devices causes serious issues such as high runtime and memory consumption. This is especially concerning with the recent large-scale foundation models, Vision-Language Models (VLMs), and Large Language Models (LLMs). Knowledge Distillation (KD) is one of the prominent techniques proposed to address the aforementioned problems using a teacher-student architecture. More specifically, a lightweight student model is trained using additional knowledge from a cumbersome teacher model. In this work, a comprehensive survey of knowledge distillation methods is proposed. This includes reviewing KD from different aspects: distillation sources, distillation schemes, distillation algorithms, distillation by modalities, applications of distillation, and comparison among existing methods. In contrast to most existing surveys, which are either outdated or simply update former surveys, this work proposes a comprehensive survey with a new point of view and representation structure that categorizes and investigates the most recent methods in knowledge distillation. This survey considers various critically important subcategories, including KD for diffusion models, 3D inputs, foundational models, transformers, and LLMs. Furthermore, existing challenges in KD and possible future research directions are discussed. Github page of the project: https://github.com/IPL-Sharif/KD_Survey
- Abstract(参考訳): Deep Neural Networks (DNN) は、コンピュータビジョンと自然言語処理の分野で、学術と産業の両方で様々な応用を達成している。
しかし、近年のDNNやトランスフォーマーモデルに膨大なパラメータが加えられているため、これらの大規模なモデルをエッジデバイスにデプロイすると、高ランタイムやメモリ消費といった深刻な問題が発生する。
これは、最近の大規模基盤モデル、ビジョンランゲージモデル(VLM)、および大規模言語モデル(LLM)に特に関係している。
KD(Knowledge Distillation)は、前述の問題に教師と学生のアーキテクチャを用いて対処するために提案されたテクニックの1つである。
より具体的には、軽量の学生モデルは、面倒な教師モデルから追加の知識を使って訓練される。
本研究は,知識蒸留法に関する総合的な調査である。
これには、蒸留源、蒸留スキーム、蒸留アルゴリズム、モダリティによる蒸留、蒸留の適用、既存の方法との比較など、さまざまな側面からKDをレビューすることが含まれる。
過去の調査や単に以前の調査を更新する既存の調査とは対照的に,本研究では,知識蒸留における最新の手法を分類・検討する,新たな視点と表現構造を備えた総合的な調査を提案する。
本調査では, 拡散モデルのKD, 3次元入力, 基礎モデル, 変圧器, LLMなどの重要なサブカテゴリについて検討した。
さらに、KDにおける既存の課題と今後の研究方向性についても論じる。
Githubのプロジェクトページ:https://github.com/IPL-Sharif/KD_Survey
関連論文リスト
- Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Knowledge Distillation of Transformer-based Language Models Revisited [74.25427636413067]
大規模なモデルサイズと高いランタイムレイテンシは、実際にトレーニング済みの言語モデルを適用する上で深刻な障害となります。
変圧器モデルのための統合知識蒸留フレームワークを提案する。
実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)に比べて相対的に改善した。
論文 参考訳(メタデータ) (2022-06-29T02:16:56Z) - Knowledge Distillation in Deep Learning and its Applications [0.6875312133832078]
ディープラーニングモデルは比較的大きく、リソース制限されたデバイスにそのようなモデルをデプロイすることは困難である。
1つの解決策は知識蒸留であり、より小さなモデル(学生モデル)がより大きなモデル(教師モデル)からの情報を利用して訓練される。
論文 参考訳(メタデータ) (2020-07-17T14:43:52Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - Knowledge Distillation and Student-Teacher Learning for Visual
Intelligence: A Review and New Outlooks [39.2907363775529]
知識蒸留(KD)は、あるモデルから他のモデルへ学習した情報を伝達するために提案されている。
本稿では,近年積極的に研究されているKDとS-T学習について述べる。
論文 参考訳(メタデータ) (2020-04-13T13:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。