Fugu-MT 論文翻訳(概要): On student-teacher deviations in distillation: does it pay to disobey?

論文の概要: On student-teacher deviations in distillation: does it pay to disobey?

arxiv url: http://arxiv.org/abs/2301.12923v1
Date: Mon, 30 Jan 2023 14:25:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 14:22:10.540120
Title: On student-teacher deviations in distillation: does it pay to disobey?
Title（参考訳）: 蒸留における教師の逸脱について--不服従にかかわるのか?
Authors: Vaishnavh Nagarajan, Aditya Krishna Menon, Srinadh Bhojanapalli, Hossein Mobahi, Sanjiv Kumar
Abstract要約: 自給自足が働くためには、生徒が何らかの理由で教師から逸脱しなければならないことを示す。トレーニングの初期力学における偏差は重要でないことが分かっています。次に、実験における学生-教師の偏差の役割を理解するために、2つの並列理論的視点を提供する。
参考スコア（独自算出の注目度）: 65.50375609513323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation has been widely-used to improve the performance of a "student" network by hoping to mimic soft probabilities of a "teacher" network. Yet, for self-distillation to work, the student must somehow deviate from the teacher (Stanton et al., 2021). But what is the nature of these deviations, and how do they relate to gains in generalization? We investigate these questions through a series of experiments across image and language classification datasets. First, we observe that distillation consistently deviates in a characteristic way: on points where the teacher has low confidence, the student achieves even lower confidence than the teacher. Secondly, we find that deviations in the initial dynamics of training are not crucial -- simply switching to distillation loss in the middle of training can recover much of its gains. We then provide two parallel theoretical perspectives to understand the role of student-teacher deviations in our experiments, one casting distillation as a regularizer in eigenspace, and another as a gradient denoiser. Our analysis bridges several gaps between existing theory and practice by (a) focusing on gradient-descent training, (b) by avoiding label noise assumptions, and (c) by unifying several disjoint empirical and theoretical findings.
Abstract（参考訳）: 知識蒸留は「教師」ネットワークのソフトな確率を模倣して「学生」ネットワークの性能を向上させるために広く用いられている。しかし、自給自足のためには、学生は何らかの理由で教師から逸脱しなければならない(Stanton et al., 2021)。しかし、これらの偏差の性質はどのようなもので、一般化における利益とはどのように関係しているのか? 画像および言語分類データセットを横断する一連の実験を通じて,これらの質問を調査した。まず, 教師の信頼度が低い点において, 生徒は教師よりも信頼度が低い点において, 蒸留が一定にずれていることを観察する。第2に、トレーニングの初期のダイナミクスの偏りは重要ではなく、単にトレーニングの途中で蒸留損失に切り替えれば、その利益の大部分を回復できるということです。次に, 実験における学生-教師の偏差の役割を理解するために, 2つの並列理論的な視点を提案し, 1つは固有空間における正則化剤として, もう1つは勾配デノイザーとして, 1つは勾配デノイザーとして, 実験は2つある。我々の分析は既存の理論と実践のギャップを橋渡しする (a)勾配降下訓練に焦点をあてる (b)ラベルノイズの仮定を回避し、 (c) 不連続な経験的・理論的発見を統一すること。

関連論文リスト

On the Emergence of Weak-to-Strong Generalization: A Bias-Variance Perspective [14.65315912348303]
W2SG(Weak-to-strong generalization)とは、弱い教師によってラベル付けされたデータセットに基づいて訓練された強力な学生モデルが、ターゲットタスクにおいて教師より優れる現象である。近年の研究では、学生モデルと教師モデルの間の予測ミスフィットによるパフォーマンス向上が評価されている。 W2SGは、生徒モデルが個々の教師を模倣するのではなく、その後部の平均教師に近似した場合に出現する可能性が示唆された。
論文参考訳（メタデータ） (2025-05-30T07:52:43Z)
Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文参考訳（メタデータ） (2025-04-29T07:23:22Z)
Exploring Dark Knowledge under Various Teacher Capacities and Addressing Capacity Mismatch [36.2630998911642]
本論文は,異なる能力を持つ教師が提供する暗黒の知識を深く掘り下げるものである。ダークナレッジの違いは、キャパシティミスマッチという特別な現象につながります。
論文参考訳（メタデータ） (2024-05-21T04:43:15Z)
Why does Knowledge Distillation Work? Rethink its Attention and Fidelity Mechanism [8.322293031346161]
パラドキカルな研究は、教師の行動を忠実に再現することは、生徒の一般化を一貫して改善しないことを示している。我々は,この低忠実度現象を,KD訓練時の病理学よりも基礎的な特徴として提案する。
論文参考訳（メタデータ） (2024-04-30T01:12:32Z)
Good Teachers Explain: Explanation-Enhanced Knowledge Distillation [52.498055901649025]
知識蒸留(KD)は、大規模な教師モデルをより小さな学生モデルに圧縮するのに有効であることが証明されている。本研究は,古典的KD損失を最適化するだけでなく,教師と生徒が生み出す説明の類似性についても検討する。シンプルで直感的なアイデアであるにもかかわらず、提案した「説明強調」KDは、精度と生徒と教師の合意の点で、一貫して大きな利益をもたらしている。
論文参考訳（メタデータ） (2024-02-05T15:47:54Z)
Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文参考訳（メタデータ） (2023-06-07T13:41:55Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Evaluation-oriented Knowledge Distillation for Deep Face Recognition [19.01023156168511]
本研究では,教師モデルと学生モデルのパフォーマンスギャップを直接軽減するために,深層顔認識のための新しい評価指向KD法を提案する。 EKDは顔認識において一般的に用いられる評価指標、すなわち偽陽性率(FPR)と真陽性率(TPR)をパフォーマンス指標として用いている。
論文参考訳（メタデータ） (2022-06-06T02:49:40Z)
Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。 IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文参考訳（メタデータ） (2021-09-10T03:01:01Z)
Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。学生が教師に合わない理由として,最適化の難しさがあげられる。
論文参考訳（メタデータ） (2021-06-10T17:44:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。