論文の概要: Adaptive Temperature Based on Logits Correlation in Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2503.09030v1
- Date: Wed, 12 Mar 2025 03:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:48.986784
- Title: Adaptive Temperature Based on Logits Correlation in Knowledge Distillation
- Title(参考訳): 知識蒸留におけるログ相関に基づく適応温度
- Authors: Kazuhiro Matsuyama, Usman Anjum, Satoko Matsuyama, Tetsuo Shoda, Justin Zhan,
- Abstract要約: 知識蒸留は、深層学習モデルが持つ性能を模倣する技法であるが、他のモデルのサイズを小さくする手法である。
これら2つの異なるモデルは、情報の提供方法に似ており、1つは「教師」、もう1つは「学生」として振る舞う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Knowledge distillation is a technique to imitate a performance that a deep learning model has, but reduce the size on another model. It applies the outputs of a model to train another model having comparable accuracy. These two distinct models are similar to the way information is delivered in human society, with one acting as the "teacher" and the other as the "student". Softmax plays a role in comparing logits generated by models with each other by converting probability distributions. It delivers the logits of a teacher to a student with compression through a parameter named temperature. Tuning this variable reinforces the distillation performance. Although only this parameter helps with the interaction of logits, it is not clear how temperatures promote information transfer. In this paper, we propose a novel approach to calculate the temperature. Our method only refers to the maximum logit generated by a teacher model, which reduces computational time against state-of-the-art methods. Our method shows a promising result in different student and teacher models on a standard benchmark dataset. Algorithms using temperature can obtain the improvement by plugging in this dynamic approach. Furthermore, the approximation of the distillation process converges to a correlation of logits by both models. This reinforces the previous argument that the distillation conveys the relevance of logits. We report that this approximating algorithm yields a higher temperature compared to the commonly used static values in testing.
- Abstract(参考訳): 知識蒸留は、深層学習モデルが持つ性能を模倣する技法であるが、他のモデルのサイズを小さくする手法である。
モデルの出力を適用して、同等の精度で他のモデルのトレーニングを行う。
これら2つの異なるモデルは、情報の提供方法に似ており、1つは「教師」、もう1つは「学生」として振る舞う。
ソフトマックスは確率分布を変換することでモデルによって生成されたロジットを互いに比較する役割を担っている。
教師のロジットを、温度というパラメータで圧縮した学生に届ける。
この変数をチューニングすることで蒸留性能が向上する。
このパラメータだけがロジットの相互作用に役立つが、どのように温度が情報伝達を促進するかは明らかではない。
本稿では,温度を計算するための新しい手法を提案する。
本手法は,教師モデルが生成する最大ロジットのみを参照し,最先端手法に対する計算時間を短縮する。
本手法は,標準ベンチマークデータセットを用いて,生徒モデルと教師モデルに有望な結果を示す。
温度を用いたアルゴリズムは、この動的アプローチをプラグインすることで改善が得られる。
さらに、蒸留プロセスの近似は、両方のモデルによるロジットの相関に収束する。
これは、蒸留がロジットの関連性を伝えるという以前の主張を補強する。
この近似アルゴリズムは、テストでよく用いられる静的な値よりも高い温度が得られることを報告している。
関連論文リスト
- Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - Cosine Similarity Knowledge Distillation for Individual Class
Information Transfer [11.544799404018473]
本稿では,教師モデルの性能に匹敵する結果が得られる新しい知識蒸留(KD)手法を提案する。
我々は、テキスト埋め込みの類似性を測定するために、自然言語処理(NLP)におけるコサイン類似性(cosine similarity)を用いる。
本研究では,コサイン類似度重み付き温度(CSWT)による性能向上手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:34:47Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - DistilPose: Tokenized Pose Regression with Heatmap Distillation [81.21273854769765]
本研究では,熱マップに基づく手法と回帰に基づく手法のギャップを埋める,DistilPoseと呼ばれる新しいポーズ推定フレームワークを提案する。
DistilPoseは、教師モデル(ヒートマップベース)から生徒モデル(レグレッションベース)への知識伝達を、Token-distilling (TDE) と Simulated Heatmaps を通じて最大化する。
論文 参考訳(メタデータ) (2023-03-04T16:56:29Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Similarity Transfer for Knowledge Distillation [25.042405967561212]
知識蒸留は、大きなモデルから小さなモデルに知識を移すことで、ポータブルニューラルネットワークを学ぶための一般的なパラダイムである。
本稿では,複数試料のカテゴリ間の類似性を十分に活用することを目的とした,知識蒸留のための類似性伝達法(stkd)を提案する。
その結果, stkdはバニラ知識蒸留法を実質的に上回り, 最先端知識蒸留法よりも精度が高かった。
論文 参考訳(メタデータ) (2021-03-18T06:54:59Z) - Bandgap optimization in combinatorial graphs with tailored ground
states: Application in Quantum annealing [0.0]
Pottsモデルのパラメータ推定にはMILP(mixed-integer linear programming)の定式化を提案する。
2つのアルゴリズムが開発され、第1の手法は、基底状態の集合がユーザの指定したデータセットを複製するパラメータを推定する。
論文 参考訳(メタデータ) (2021-01-31T22:11:12Z) - Triplet Loss for Knowledge Distillation [2.683996597055128]
知識蒸留の目的は,教師モデルと学生モデルとの類似性を高めることである。
計量学習では、類似したサンプルの出力の類似性を高めるモデルを構築する方法が研究されている。
メトリック学習は,異なる出力の差を明らかにすることができ,学生モデルの性能を向上させることができると考えている。
論文 参考訳(メタデータ) (2020-04-17T08:48:29Z) - Knowledge distillation via adaptive instance normalization [52.91164959767517]
本稿では,教師から生徒への特徴統計の伝達に基づく新しい知識蒸留法を提案する。
本手法は,教師に類似する生徒の平均と分散を強制する標準的な方法を超えている。
以上の結果から, 蒸留法は他の蒸留法よりも高い性能を示した。
論文 参考訳(メタデータ) (2020-03-09T17:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。