論文の概要: Not All Knowledge Is Created Equal
- arxiv url: http://arxiv.org/abs/2106.01489v1
- Date: Wed, 2 Jun 2021 22:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:26:10.505678
- Title: Not All Knowledge Is Created Equal
- Title(参考訳): すべての知識が平等であるとは限らない
- Authors: Ziyun Li, Xinshao Wang, Haojin Yang, Di Hu, Neil M. Robertson, David
A. Clifton, Christoph Meinel
- Abstract要約: 相互知識蒸留(MKD)は、他のモデルから知識を蒸留することによってモデルを改善する。
すべての知識が確実で正しいわけではない、特に悪条件下では。
CMDの鍵となるコンポーネントは汎用的な知識選択の定式化であり、選択しきい値が静的(CMD-S)かプログレッシブ(CMD-P)になる。
- 参考スコア(独自算出の注目度): 26.729418730483545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mutual knowledge distillation (MKD) improves a model by distilling knowledge
from another model. However, not all knowledge is certain and correct,
especially under adverse conditions. For example, label noise usually leads to
less reliable models due to the undesired memorisation [1, 2]. Wrong knowledge
misleads the learning rather than helps. This problem can be handled by two
aspects: (i) improving the reliability of a model where the knowledge is from
(i.e., knowledge source's reliability); (ii) selecting reliable knowledge for
distillation. In the literature, making a model more reliable is widely studied
while selective MKD receives little attention. Therefore, we focus on studying
selective MKD and highlight its importance in this work.
Concretely, a generic MKD framework, Confident knowledge selection followed
by Mutual Distillation (CMD), is designed. The key component of CMD is a
generic knowledge selection formulation, making the selection threshold either
static (CMD-S) or progressive (CMD-P). Additionally, CMD covers two special
cases: zero knowledge and all knowledge, leading to a unified MKD framework. We
empirically find CMD-P performs better than CMD-S. The main reason is that a
model's knowledge upgrades and becomes confident as the training progresses.
Extensive experiments are present to demonstrate the effectiveness of CMD and
thoroughly justify the design of CMD. For example, CMD-P obtains new
state-of-the-art results in robustness against label noise.
- Abstract(参考訳): 相互知識蒸留(mkd)は、他のモデルから知識を蒸留することでモデルを改善する。
しかし、すべての知識が確実かつ正しいわけではない。
例えば、ラベルノイズは通常、望ましくない記憶のために信頼性の低いモデルをもたらす [1, 2]。
間違った知識は助けよりも学習を誤解させる。
この問題は、2つの側面によって処理できる: (i) 知識が(知識源の信頼性)から得られるモデルの信頼性を改善する; (ii) 蒸留のための信頼できる知識を選択する。
文献では、モデルをより信頼性の高いものにしながら、選択的なMKDはほとんど注目されない。
そこで我々は選択的MKDの研究に焦点をあて,本研究におけるその重要性を強調した。
具体的には、MKDフレームワーク、信頼性知識の選択、そして相互蒸留(Mutual Distillation, CMD)を設計する。
CMDのキーコンポーネントは汎用的な知識選択の定式化であり、選択しきい値が静的(CMD-S)かプログレッシブ(CMD-P)になる。
さらにcmdは、ゼロ知識とすべての知識という2つの特別なケースをカバーし、統一mkdフレームワークへと導かれる。
CMD-PはCMD-Sよりも優れていた。
主な理由は、モデルの知識がアップグレードされ、トレーニングが進むにつれて自信が増すからです。
CMDの有効性を実証し、CMDの設計を徹底的に正当化するために、大規模な実験を行う。
例えば、CMD-Pはラベルノイズに対するロバスト性を示す新しい最先端結果を得る。
関連論文リスト
- Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection [35.515135913846386]
本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-02-01T13:40:19Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - Knowledge Condensation Distillation [38.446333274732126]
既存の方法は、知識のヒントを発掘し、すべての知識を学生に伝達することに焦点を当てている。
本稿では,知識凝縮蒸留(KCD)を提案する。
我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能なオーバーヘッドがない。
論文 参考訳(メタデータ) (2022-07-12T09:17:34Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Understanding and Improving Knowledge Distillation [13.872105118381938]
知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
本稿では,教師の知識を3つの階層レベルに分類し,その知識蒸留への影響について検討する。
論文 参考訳(メタデータ) (2020-02-10T04:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。