論文の概要: Knowledge Distillation and Student-Teacher Learning for Visual
Intelligence: A Review and New Outlooks
- arxiv url: http://arxiv.org/abs/2004.05937v7
- Date: Thu, 17 Jun 2021 07:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:08:55.810445
- Title: Knowledge Distillation and Student-Teacher Learning for Visual
Intelligence: A Review and New Outlooks
- Title(参考訳): ビジュアルインテリジェンスのための知識蒸留と学生教員の学習 : レビューと新たな展望
- Authors: Lin Wang and Kuk-Jin Yoon
- Abstract要約: 知識蒸留(KD)は、あるモデルから他のモデルへ学習した情報を伝達するために提案されている。
本稿では,近年積極的に研究されているKDとS-T学習について述べる。
- 参考スコア(独自算出の注目度): 39.2907363775529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural models in recent years have been successful in almost every
field, including extremely complex problem statements. However, these models
are huge in size, with millions (and even billions) of parameters, thus
demanding more heavy computation power and failing to be deployed on edge
devices. Besides, the performance boost is highly dependent on redundant
labeled data. To achieve faster speeds and to handle the problems caused by the
lack of data, knowledge distillation (KD) has been proposed to transfer
information learned from one model to another. KD is often characterized by the
so-called `Student-Teacher' (S-T) learning framework and has been broadly
applied in model compression and knowledge transfer. This paper is about KD and
S-T learning, which are being actively studied in recent years. First, we aim
to provide explanations of what KD is and how/why it works. Then, we provide a
comprehensive survey on the recent progress of KD methods together with S-T
frameworks typically for vision tasks. In general, we consider some fundamental
questions that have been driving this research area and thoroughly generalize
the research progress and technical details. Additionally, we systematically
analyze the research status of KD in vision applications. Finally, we discuss
the potentials and open challenges of existing methods and prospect the future
directions of KD and S-T learning.
- Abstract(参考訳): 近年のディープニューラルモデルは、非常に複雑な問題ステートメントを含むほぼすべての分野で成功している。
しかし、これらのモデルは巨大なサイズであり、数百万(そして数十億)のパラメータを持つため、計算能力の増大とエッジデバイスへのデプロイの失敗が要求される。
さらに、性能向上は冗長なラベル付きデータに大きく依存する。
データ不足に起因する問題を高速に処理するために、知識蒸留(KD)は、あるモデルから別のモデルに学習した情報を転送するために提案されている。
KDはしばしば'Student-Teacher'(S-T)学習フレームワークによって特徴づけられ、モデル圧縮や知識伝達に広く応用されている。
本稿では,近年積極的に研究されているKDとS-T学習について述べる。
まず、KDとは何か、なぜ機能するのかを説明する。
次に、視覚タスクにおけるKDメソッドとS-Tフレームワークの最近の進歩に関する総合的な調査を行う。
一般に、この研究分野を推進してきたいくつかの基本的な疑問を考察し、研究の進展と技術的詳細を徹底的に一般化する。
さらに,視覚応用におけるkdの研究状況を体系的に分析する。
最後に,既存の手法の可能性と課題について論じ,kd と s-t 学習の今後の方向性を展望する。
関連論文リスト
- Applications of Knowledge Distillation in Remote Sensing: A Survey [3.481234252899159]
知識蒸留(KD)は、複雑な、しばしば面倒なモデル(教師)からよりコンパクトで効率的なモデル(学生)へ知識を伝達するために開発された技術である。
この記事では、KDテクニックの包括的な分類法を提供し、各カテゴリを批判的に分析して、代替オプションの幅と深さを実証する。
本報告では, RSにおけるKDの課題と限界について論じる。
論文 参考訳(メタデータ) (2024-09-18T16:30:49Z) - A Question-centric Multi-experts Contrastive Learning Framework for Improving the Accuracy and Interpretability of Deep Sequential Knowledge Tracing Models [26.294808618068146]
知識追跡は,学生の今後の業績を予測する上で重要な役割を担っている。
ディープニューラルネットワーク(DNN)は、KT問題を解決する大きな可能性を示している。
しかし、KTプロセスのモデル化にディープラーニング技術を適用する際には、いくつかの重要な課題がある。
論文 参考訳(メタデータ) (2024-03-12T05:15:42Z) - A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - Talking Models: Distill Pre-trained Knowledge to Downstream Models via
Interactive Communication [25.653517213641575]
我々は、下流の課題の学生が事前学習された基礎モデルから効果的に学習するのに役立つ対話型コミュニケーションプロセスを開発する。
私たちのデザインは、学生のニーズを満たす方法で知識を説明することができる教師から、人間が学ぶ方法にインスピレーションを受けています。
論文 参考訳(メタデータ) (2023-10-04T22:22:21Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - A Systematic Study of Knowledge Distillation for Natural Language
Generation with Pseudo-Target Training [32.87731973236423]
我々は,小学生が大きな教師モデルを模倣することを学ぶ,知識蒸留(KD)技術に注目した。
我々は,現実的な仮定の下で,様々なNLGタスクに対するタスク固有KD手法の体系的研究を行う。
教師と学生の両方が生成する複数のPTに対して単語レベルKDを適用するジョイント・ティーチング法を提案する。
論文 参考訳(メタデータ) (2023-05-03T10:49:38Z) - Knowledge Distillation of Transformer-based Language Models Revisited [74.25427636413067]
大規模なモデルサイズと高いランタイムレイテンシは、実際にトレーニング済みの言語モデルを適用する上で深刻な障害となります。
変圧器モデルのための統合知識蒸留フレームワークを提案する。
実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)に比べて相対的に改善した。
論文 参考訳(メタデータ) (2022-06-29T02:16:56Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - A Survey of Knowledge Tracing: Models, Variants, and Applications [70.69281873057619]
知識追跡は、学生の行動データ分析の基本的なタスクの1つである。
我々は、異なる技術経路を持つ3種類の基本KTモデルを示す。
この急速に成長する分野における今後の研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-05-06T13:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。