Fugu-MT 論文翻訳(概要): Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch

論文の概要: Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch

arxiv url: http://arxiv.org/abs/2405.13078v1
Date: Tue, 21 May 2024 04:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 04:22:11.875403
Title: Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch
Title（参考訳）: 教師能力の異なる暗黒知識の探索と課題
Authors: Xin-Chun Li, Wen-Shu Fan, Bowen Tao, Le Gan, De-Chuan Zhan,
Abstract要約: 本論文は,異なる能力を持つ教師が提供する暗黒の知識を深く掘り下げるものである。ダークナレッジの違いは、キャパシティミスマッチという特別な現象につながります。
参考スコア（独自算出の注目度）: 36.2630998911642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge Distillation (KD) could transfer the ``dark knowledge" of a well-performed yet large neural network to a weaker but lightweight one. From the view of output logits and softened probabilities, this paper goes deeper into the dark knowledge provided by teachers with different capacities. Two fundamental observations are: (1) a larger teacher tends to produce probability vectors that are less distinct between non-ground-truth classes; (2) teachers with different capacities are basically consistent in their cognition of relative class affinity. Abundant experimental studies verify these observations and in-depth empirical explanations are provided. The difference in dark knowledge leads to the peculiar phenomenon named ``capacity mismatch" that a more accurate teacher does not necessarily perform as well as a smaller teacher when teaching the same student network. Enlarging the distinctness between non-ground-truth class probabilities for larger teachers could address the capacity mismatch problem. This paper explores multiple simple yet effective ways to achieve this goal and verify their success by comparing them with popular KD methods that solve the capacity mismatch.
Abstract（参考訳）: 知識蒸留(KD)は、よく性能のよい大きなニューラルネットワークの「暗黒の知識」を、より弱く軽量なものに転送することができる。出力ロジットとソフト化確率の観点から、この論文は、異なる能力を持つ教師が提供する暗黒の知識を深く掘り下げる。(1)より大きい教師は、非基底的クラスと区別されない確率ベクトルを生成する傾向にある。(2)異なる能力を持つ教師は、基本的に、相対的なクラス親和性の認知に一貫性がある。過去の実験的研究は、これらの観察を検証し、深遠な経験的説明を提供する。暗黒の知識の違いは、教師が、より正確な「暗黒のミスマッチ」("capacity mismatch")と呼ばれる現象をもたらす。大規模教員に対する非基幹クラス確率の相違性を高めることは, 容量ミスマッチ問題に対処する可能性がある。本稿では,この目標を達成し,その成功を,キャパシティミスマッチを解くKD手法と比較することによって検証する。

関連論文リスト

Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文参考訳（メタデータ） (2025-04-29T07:23:22Z)
Knowledge From the Dark Side: Entropy-Reweighted Knowledge Distillation for Balanced Knowledge Transfer [1.2606200500489302]
蒸留(KD)は、より大きな「教師」モデルからの知識を学生に伝達する。 ERKDは教師の予測においてエントロピーを用いてKD損失を標本的に再重み付けする。私たちのコードはhttps://github.com/cpsu00/ER-KD.comで公開されています。
論文参考訳（メタデータ） (2023-11-22T08:34:33Z)
On student-teacher deviations in distillation: does it pay to disobey? [54.908344098305804]
知識蒸留は「学生」ネットワークのテスト精度を向上させるために広く用いられている。教師の確率に合うように訓練されているにもかかわらず、生徒は教師の確率から大きく逸脱するだけでなく、パフォーマンスにおいて教師を上回ることもある。
論文参考訳（メタデータ） (2023-01-30T14:25:02Z)
Adam: Dense Retrieval Distillation with Adaptive Dark Examples [104.01735794498767]
本稿では,教師が持つ暗黒知識を適応暗黒エクストリームで伝達する知識蒸留フレームワークであるADAMを提案する。 2つの広く利用されているベンチマークで実験を行い、本手法の有効性を検証する。
論文参考訳（メタデータ） (2022-12-20T12:03:19Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。知識蒸留は教師から知識を抽出し、対象モデルと統合する。教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文参考訳（メタデータ） (2022-05-04T06:49:47Z)
Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2021-03-31T06:52:20Z)
Distilling Knowledge via Intermediate Classifier Heads [0.5584060970507505]
知識蒸留は、事前訓練されたより大きな教師モデルのガイドを用いて、リソース限定の学生モデルを訓練するためのトランスファーラーニングアプローチである。キャパシティギャップの影響を軽減するため,中間頭部による知識蒸留を導入する。種々の教師と学生のペアとデータセットに関する実験により,提案手法が標準知識蒸留法よりも優れていることを示した。
論文参考訳（メタデータ） (2021-02-28T12:52:52Z)
Multi-level Knowledge Distillation [13.71183256776644]
教師から学生ネットワークへより豊かな表現的知識を伝達するために,MLKD(Multi-level Knowledge Distillation)を導入する。 MLKDは、個人類似性、関係類似性、カテゴリー類似性という3つの新しい教師-学生類似性を採用している。実験により、MLKDは同様のアーキテクチャタスクとクロスアーキテクチャタスクの両方において、他の最先端メソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2020-12-01T15:27:15Z)
Reducing the Teacher-Student Gap via Spherical Knowledge Disitllation [67.75526580926149]
知識蒸留は、はるかに大きなものから写像関数を学習することにより、コンパクトで効果的なモデルを得ることを目的としている。本研究では,教師と学生の信頼のギャップを調査し,容量ギャップ問題について検討する。知識蒸留には信頼度は必要とせず,学生が自信を習得せざるを得ない場合には,学生のパフォーマンスを損なう可能性がある。
論文参考訳（メタデータ） (2020-10-15T03:03:36Z)
Role-Wise Data Augmentation for Knowledge Distillation [48.115719640111394]
知識蒸留(KD)は、ある機械学習モデルから学んだ知識を別の機械学習モデルに転送する一般的な方法である。我々は、知識蒸留を促進するために、異なる役割を持つデータ増強剤を設計する。特別に調整されたデータポイントが、教師の知識をより効果的に生徒に示せることを実証的に見出した。
論文参考訳（メタデータ） (2020-04-19T14:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。