論文の概要: On effects of Knowledge Distillation on Transfer Learning
- arxiv url: http://arxiv.org/abs/2210.09668v1
- Date: Tue, 18 Oct 2022 08:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:38:10.225367
- Title: On effects of Knowledge Distillation on Transfer Learning
- Title(参考訳): 知識蒸留が転校学習に及ぼす影響について
- Authors: Sushil Thapa
- Abstract要約: 本稿では,知識蒸留と伝達学習を組み合わせたTL+KDという機械学習アーキテクチャを提案する。
我々は,教師ネットワークの指導と知識を微調整中に利用することにより,学生ネットワークを改良し,精度などの検証性能を向上させることができることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is a popular machine learning technique that aims to
transfer knowledge from a large 'teacher' network to a smaller 'student'
network and improve the student's performance by training it to emulate the
teacher. In recent years, there has been significant progress in novel
distillation techniques that push performance frontiers across multiple
problems and benchmarks. Most of the reported work focuses on achieving
state-of-the-art results on the specific problem. However, there has been a
significant gap in understanding the process and how it behaves under certain
training scenarios. Similarly, transfer learning (TL) is an effective technique
in training neural networks on a limited dataset faster by reusing
representations learned from a different but related problem. Despite its
effectiveness and popularity, there has not been much exploration of knowledge
distillation on transfer learning. In this thesis, we propose a machine
learning architecture we call TL+KD that combines knowledge distillation with
transfer learning; we then present a quantitative and qualitative comparison of
TL+KD with TL in the domain of image classification. Through this work, we show
that using guidance and knowledge from a larger teacher network during
fine-tuning, we can improve the student network to achieve better validation
performances like accuracy. We characterize the improvement in the validation
performance of the model using a variety of metrics beyond just accuracy
scores, and study its performance in scenarios such as input degradation.
- Abstract(参考訳): 知識蒸留は、大きな「教師」ネットワークからより小さな「学生」ネットワークに知識を伝達し、教師をエミュレートして生徒のパフォーマンスを向上させることを目的とした、一般的な機械学習技術である。
近年, 性能フロンティアを複数の問題やベンチマークで推し進める新しい蒸留技術が著しく進歩している。
報告された研究の大部分は、特定の問題に対する最先端の成果を達成することに焦点を当てている。
しかし、特定のトレーニングシナリオにおいて、プロセスとプロセスがどのように振る舞うかを理解する上で大きなギャップがあった。
同様に、転送学習(TL)は、異なるが関連する問題から学んだ表現を再利用することで、限られたデータセット上でニューラルネットワークを高速にトレーニングする効果的な手法である。
その効果と人気にもかかわらず、転校学習における知識蒸留の研究はあまり行われていない。
本稿では,知識蒸留と伝達学習を組み合わせたTL+KDと呼ぶ機械学習アーキテクチャを提案し,画像分類領域におけるTL+KDとTLとの定量的・定性的な比較を示す。
そこで本研究では,教師ネットワークの指導と知識を微調整中に活用することにより,学生ネットワークを改良し,精度などの検証性能を向上できることを示す。
我々は,モデルの検証性能の向上を,単に精度スコア以上の様々な指標を用いて特徴付け,入力劣化などのシナリオにおける検証性能について検討する。
関連論文リスト
- Multi-Task Multi-Scale Contrastive Knowledge Distillation for Efficient Medical Image Segmentation [0.0]
本論文は,医用画像分割作業におけるニューラルネットワーク間の知識伝達の実現可能性を検討することを目的とする。
データボリュームが制限される医療画像の文脈では、より大きなトレーニング済みネットワークからの知識を活用することが有用である。
論文 参考訳(メタデータ) (2024-06-05T12:06:04Z) - Review helps learn better: Temporal Supervised Knowledge Distillation [9.220654594406508]
ネットワークトレーニング中、特徴写像の進化は時間的シーケンス特性に従うことが判明した。
この観察にインスパイアされた我々は、時間的監視された知識蒸留(TSKD)を提案する。
論文 参考訳(メタデータ) (2023-07-03T07:51:08Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Semi-Supervising Learning, Transfer Learning, and Knowledge Distillation
with SimCLR [2.578242050187029]
半教師付き学習の分野における最近のブレークスルーは、最先端の従来の教師付き学習手法と一致する結果を得た。
SimCLRは、コンピュータビジョンのための最先端の半教師付き学習フレームワークである。
論文 参考訳(メタデータ) (2021-08-02T01:37:39Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Point Adversarial Self Mining: A Simple Method for Facial Expression
Recognition [79.75964372862279]
本稿では,表情認識における認識精度を向上させるために,PASM(Point Adversarial Self Mining)を提案する。
PASMは、目標タスクに関連する最も情報性の高い位置を見つけるために、ポイント敵攻撃法と訓練された教師ネットワークを使用する。
適応学習教材の生成と教師/学生の更新を複数回行うことができ、ネットワーク能力が反復的に向上する。
論文 参考訳(メタデータ) (2020-08-26T06:39:24Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。