論文の概要: Extracting knowledge from features with multilevel abstraction
- arxiv url: http://arxiv.org/abs/2112.13642v1
- Date: Sat, 4 Dec 2021 02:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-02 10:23:11.288039
- Title: Extracting knowledge from features with multilevel abstraction
- Title(参考訳): 多レベル抽象化による特徴からの知識抽出
- Authors: Jinhong Lin, Zhaoyang Li
- Abstract要約: 自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
- 参考スコア(独自算出の注目度): 3.4443503349903124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation aims at transferring the knowledge from a large
teacher model to a small student model with great improvements of the
performance of the student model. Therefore, the student network can replace
the teacher network to deploy on low-resource devices since the higher
performance, lower number of parameters and shorter inference time.
Self-knowledge distillation (SKD) attracts a great attention recently that a
student model itself is a teacher model distilling knowledge from. To the best
of our knowledge, self knowledge distillation can be divided into two main
streams: data augmentation and refined knowledge auxiliary. In this paper, we
purpose a novel SKD method in a different way from the main stream methods. Our
method distills knowledge from multilevel abstraction features. Experiments and
ablation studies show its great effectiveness and generalization on various
kinds of tasks with various kinds of model structures. Our codes have been
released on GitHub.
- Abstract(参考訳): 知識蒸留は, 大規模教員モデルから小学生モデルへの知識伝達を目標とし, 学生モデルの性能向上を図っている。
そのため,学生ネットワークは,より高い性能,低いパラメータ数,短い推論時間のため,低リソースデバイスに配置する教師ネットワークを置き換えることができる。
自己知識蒸留(SKD)は、近年学生モデル自体が知識を蒸留する教師モデルであることに大きな注目を集めている。
我々の知識を最大限に活用するために、自己知識の蒸留は2つの主要なストリームに分けることができる。
本稿では,新しいskd法を,メインストリーム法とは異なる方法で目的とする。
本手法は多レベル抽象特徴から知識を抽出する。
実験とアブレーション研究は、様々な種類のモデル構造を持つ様々なタスクにおいて、その大きな効果と一般化を示す。
私たちのコードはGitHubでリリースされています。
関連論文リスト
- LAKD-Activation Mapping Distillation Based on Local Learning [12.230042188890838]
本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
論文 参考訳(メタデータ) (2024-08-21T09:43:27Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Cooperative Knowledge Distillation: A Learner Agnostic Approach [15.414204257189596]
我々は、多くのモデルが学生と教師の両方として機能する新しいタイプの知識蒸留を定式化する。
異なるモデルが異なる長所と短所を持っている可能性があるため、すべてのモデルは生徒または教師として振る舞うことができる。
論文 参考訳(メタデータ) (2024-02-02T17:31:50Z) - AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - A Selective Survey on Versatile Knowledge Distillation Paradigm for
Neural Network Models [3.770437296936382]
本稿では, 知識蒸留の3つの重要な要素が, 知識と損失である, 教師-学生パラダイム, 蒸留プロセスである,という仮説から, 知識蒸留の特徴を概観する。
本稿では, 知識蒸留における今後の課題として, 性能向上の分析分析を研究対象とする説明可能な知識蒸留と, 深層学習コミュニティにおける熱い研究課題である自己教師型学習について述べる。
論文 参考訳(メタデータ) (2020-11-30T05:22:02Z) - Knowledge Distillation: A Survey [87.51063304509067]
ディープニューラルネットワークは、特にコンピュータビジョンタスクにおいて、産業と学術の両方で成功している。
リソースが限られているデバイスに、これらの面倒なディープモデルをデプロイすることは難しい。
知識蒸留は、大きな教師モデルから小さな学生モデルを効果的に学習する。
論文 参考訳(メタデータ) (2020-06-09T21:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。