論文の概要: Teacher-Student Architecture for Knowledge Distillation: A Survey
- arxiv url: http://arxiv.org/abs/2308.04268v1
- Date: Tue, 8 Aug 2023 14:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:34:21.937317
- Title: Teacher-Student Architecture for Knowledge Distillation: A Survey
- Title(参考訳): 知識蒸留のための教師学生アーキテクチャ:調査
- Authors: Chengming Hu, Xuan Li, Dan Liu, Haolun Wu, Xi Chen, Ju Wang, Xue Liu
- Abstract要約: いくつかのパラメータを持つ学生ネットワークは、多くのパラメータを持つディープ・教師ネットワークに匹敵する性能を達成することができる。
教師-学生アーキテクチャは、様々な知識蒸留(KD)の目的に効果的に広く受け入れられてきた。
- 参考スコア(独自算出の注目度): 17.58895983901923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Deep neural networks (DNNs) have shown a strong capacity to solve
large-scale problems in many areas, such DNNs are hard to be deployed in
real-world systems due to their voluminous parameters. To tackle this issue,
Teacher-Student architectures were proposed, where simple student networks with
a few parameters can achieve comparable performance to deep teacher networks
with many parameters. Recently, Teacher-Student architectures have been
effectively and widely embraced on various knowledge distillation (KD)
objectives, including knowledge compression, knowledge expansion, knowledge
adaptation, and knowledge enhancement. With the help of Teacher-Student
architectures, current studies are able to achieve multiple distillation
objectives through lightweight and generalized student networks. Different from
existing KD surveys that primarily focus on knowledge compression, this survey
first explores Teacher-Student architectures across multiple distillation
objectives. This survey presents an introduction to various knowledge
representations and their corresponding optimization objectives. Additionally,
we provide a systematic overview of Teacher-Student architectures with
representative learning algorithms and effective distillation schemes. This
survey also summarizes recent applications of Teacher-Student architectures
across multiple purposes, including classification, recognition, generation,
ranking, and regression. Lastly, potential research directions in KD are
investigated, focusing on architecture design, knowledge quality, and
theoretical studies of regression-based learning, respectively. Through this
comprehensive survey, industry practitioners and the academic community can
gain valuable insights and guidelines for effectively designing, learning, and
applying Teacher-Student architectures on various distillation objectives.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)は、多くの領域で大規模な問題を解決する能力が強かったが、そのようなdnnを実世界のシステムに展開することは困難である。
この問題に対処するために,数パラメータの単純な学生ネットワークが,パラメータの少ない教師ネットワークと同等の性能を達成できる,教師学習型アーキテクチャが提案されている。
近年, 知識圧縮, 知識拡張, 知識適応, 知識向上など, 様々な知識蒸留(KD)の目標に対して, 教師・学生アーキテクチャが効果的に広く受け入れられている。
教師・学生アーキテクチャの助けを借りて,最近の研究は,軽量で汎用的な学生ネットワークを通じて,複数の蒸留目的を達成することができる。
知識圧縮を主眼とする既存のKD調査と異なり、この調査はまず、複数の蒸留目標にわたる教師-学生アーキテクチャについて調査する。
本調査では,様々な知識表現とそれに対応する最適化目標について紹介する。
さらに, 代表的な学習アルゴリズムと効果的な蒸留スキームを用いて, 教師・学生のアーキテクチャを体系的に概観する。
この調査は、分類、認識、生成、ランキング、回帰など、様々な目的にまたがる教師学習型アーキテクチャの最近の応用を要約している。
最後に,アーキテクチャ設計,知識品質,回帰型学習の理論研究を中心に,kdにおける潜在的研究方向を検討する。
この包括的調査を通じて、産業実践家や学術コミュニティは、様々な蒸留目的に教師-学生アーキテクチャを効果的に設計、学習、適用するための貴重な洞察とガイドラインを得ることができる。
関連論文リスト
- EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [54.99121380536659]
眼球運動バイオメトリックスは、高い安全性の識別により注目されている。
深層学習(DL)モデルは近年,眼球運動認識に成功している。
DLアーキテクチャはまだ人間の事前知識によって決定されている。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - TIE-KD: Teacher-Independent and Explainable Knowledge Distillation for
Monocular Depth Estimation [1.03590082373586]
本稿では、複雑な教師モデルからコンパクトな学生ネットワークへの知識伝達を合理化するTIE-KD(Teacher-Independent Explainable Knowledge Distillation)フレームワークを紹介する。
TIE-KDの基盤はDPM(Depth Probability Map)であり、教師の出力を解釈する説明可能な特徴マップである。
KITTIデータセットの大規模な評価は、TIE-KDが従来の応答に基づくKD法より優れているだけでなく、多様な教師や学生のアーキテクチャで一貫した有効性を示すことを示している。
論文 参考訳(メタデータ) (2024-02-22T07:17:30Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Teacher-Student Architecture for Knowledge Learning: A Survey [16.896254271708738]
学生ネットワークは、ディープ・教師ネットワークと同等のパフォーマンスを達成できる。
教師-学生アーキテクチャの助けを借りて、現在の研究は複数の知識学習目標を達成することができる。
論文 参考訳(メタデータ) (2022-10-28T01:11:52Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search [19.798931417466456]
シーケンシャル・レコメンデータ・システム(SRS)は、ユーザの動的興味やシーケンシャルな行動パターンをモデル化する能力から、研究ホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択は、より大きく深いネットワークアーキテクチャを適用することである。
本稿では,教師モデルの知識を学生モデルに適応的に圧縮するフレームワークであるAdaRecを提案する。
論文 参考訳(メタデータ) (2021-07-15T07:47:46Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - LENAS: Learning-based Neural Architecture Search and Ensemble for 3D Radiotherapy Dose Prediction [42.38793195337463]
本稿では3次元放射線治療線量予測のための知識蒸留とニューラルネットワーク検索を統合した,学習に基づく新しいアンサンブル手法 LENAS を提案する。
当社のアプローチは、巨大なアーキテクチャ空間から各ブロックを徹底的に検索して、有望なパフォーマンスを示す複数のアーキテクチャを識別することから始まります。
モデルアンサンブルによってもたらされる複雑さを軽減するため、教師-学生パラダイムを採用し、複数の学習ネットワークからの多様な出力を監視信号として活用する。
論文 参考訳(メタデータ) (2021-06-12T10:08:52Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z) - Search for Better Students to Learn Distilled Knowledge [42.693046930423655]
本研究では,優れた学生アーキテクチャを手作業で設計する代わりに,最適な学生を自動検索することを提案する。
L1-ノルム最適化に基づき、教師ネットワークトポロジグラフからのサブグラフを学生として選択し、学生の出力と教師の出力とのKL差を最小限にすることを目的とする。
実験により,学習した学生のアーキテクチャは,手作業で指定したものよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-01-30T23:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。