論文の概要: Towards Undistillable Models by Minimizing Conditional Mutual Information
- arxiv url: http://arxiv.org/abs/2507.00012v1
- Date: Fri, 13 Jun 2025 00:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.377765
- Title: Towards Undistillable Models by Minimizing Conditional Mutual Information
- Title(参考訳): 条件付き相互情報の最小化による不蒸留モデルの実現に向けて
- Authors: Linfeng Ye, Shayan Mohajer Hamidi, En-hui Yang,
- Abstract要約: 深層ニューラルネットワーク(DNN)は、ブラックボックス入力出力教師として使用される場合、知識蒸留(KD)によって蒸留できない場合、蒸留不可能とされる。
従来のクロスエントロピー(CE)損失を最小化してDNNを訓練するCMIM法を提案する。
CMIMモデルは、広範囲な実験により、文献に存在する全ての試験されたKD法で不溶性であることが示されている。
- 参考スコア(独自算出の注目度): 3.4398508628750313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A deep neural network (DNN) is said to be undistillable if, when used as a black-box input-output teacher, it cannot be distilled through knowledge distillation (KD). In this case, the distilled student (referred to as the knockoff student) does not outperform a student trained independently with label smoothing (LS student) in terms of prediction accuracy. To protect intellectual property of DNNs, it is desirable to build undistillable DNNs. To this end, it is first observed that an undistillable DNN may have the trait that each cluster of its output probability distributions in response to all sample instances with the same label should be highly concentrated to the extent that each cluster corresponding to each label should ideally collapse into one probability distribution. Based on this observation and by measuring the concentration of each cluster in terms of conditional mutual information (CMI), a new training method called CMI minimized (CMIM) method is proposed, which trains a DNN by jointly minimizing the conventional cross entropy (CE) loss and the CMI values of all temperature scaled clusters across the entire temperature spectrum. The resulting CMIM model is shown, by extensive experiments, to be undistillable by all tested KD methods existing in the literature. That is, the knockoff students distilled by these KD methods from the CMIM model underperform the respective LS students. In addition, the CMIM model is also shown to performs better than the model trained with the CE loss alone in terms of their own prediction accuracy.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)は、ブラックボックス入力出力の教師として使用される場合、知識蒸留(KD)によって蒸留できない場合、蒸留不可能とされる。
この場合、蒸留した学生(ノックオフ学生)は、予測精度の観点からラベルスムーシング(LS学生)を独立して訓練した生徒よりも優れていない。
DNNの知的財産権を保護するためには,DNNの無菌化が望ましい。
この目的のために、DNNは、同一ラベルを持つ全てのサンプルインスタンスに対して、その出力確率分布の各クラスタが、各ラベルに対応する各クラスタが理想的に1つの確率分布に崩壊する程度に高度に集中すべきであるという特性を最初に観察した。
この観測と条件付き相互情報(CMI)による各クラスタの濃度測定により,CMI最小化(CMIM)法と呼ばれる新しいトレーニング手法が提案され,従来のクロスエントロピー(CE)損失と温度スペクトル全体にわたるすべての温度スケールクラスタのCMI値とを併用してDNNを訓練する。
得られたCMIMモデルは、広範な実験により、文献に存在する全ての試験されたKD法で不溶性であることが示されている。
すなわち、CMIMモデルからこれらのKD法で蒸留したノックオフ学生は、各LS学生を過小評価する。
さらに, CMIMモデルでは, CE損失だけで訓練したモデルよりも, 予測精度が向上することが示されている。
関連論文リスト
- GNN's Uncertainty Quantification using Self-Distillation [0.6906005491572398]
本稿では,知識蒸留に基づく新しい手法を提案し,グラフニューラルネットワークの不確かさをより効率的に,高精度に定量化する。
本研究では,2つのグラフデータセットにおける分布外データの識別におけるアプローチの精度,性能,能力について実験的に評価した。
論文 参考訳(メタデータ) (2025-06-24T23:08:31Z) - Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation [53.30082523545212]
知識蒸留(KD)は、現代の生産モデルの訓練と展開における中核的な要素である。
我々は,KDが学生モデルにおける精度とリコールのトレードオフを引き起こすことを示す。
本分析は、生成モデルにおけるKDの有効性について、単純かつ一般的な説明を提供する。
論文 参考訳(メタデータ) (2025-05-19T13:39:47Z) - CEC-MMR: Cross-Entropy Clustering Approach to Multi-Modal Regression [8.127496643086701]
本稿では,回帰問題における成分数の自動検出を可能にするCEC-MMRを提案する。
属性とその値が与えられた場合、そのメソッドは基盤となるコンポーネントと一意に識別することができる。
その結果,CEC-MMRは古典的MDNよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2025-04-09T21:51:38Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using
SMOTE, Edited Nearest Neighbour, and Mixup [0.20482269513546458]
医用画像における非バランスなデータセットは、スクイードクラスの割合と異常な症例の不足によって特徴づけられる。
本稿では,Mixup Augmentation を用いて新たなデータポイントを汎用的なビジナル分布として生成する可能性について検討する。
不均衡なデータセットが一般的である乳癌の問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-11-13T17:45:28Z) - Conditional Mutual Information Constrained Deep Learning for
Classification [3.5237980787861964]
分類深層ニューラルネットワーク(DNN)の濃度と性能を測定するために、条件付き相互情報(CMI)と正規化条件付き相互情報(NCMI)を導入する。
NCMIを用いて、画像ネット上で事前訓練された一般的なDNNを評価することにより、画像ネット検証データセットに対する検証精度は、NCMI値にほぼ逆比例していることが示されている。
このような制約付き最適化問題を解くために,新しい交互学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-17T01:16:45Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Graph Neural Networks for Temperature-Dependent Activity Coefficient
Prediction of Solutes in Ionic Liquids [58.720142291102135]
IL中の溶質の温度依存性無限希釈交流を予測するためのGNNを提案する。
我々は、GNNを4万以上のAC値を含むデータベース上でトレーニングし、最先端のMCMと比較する。
GNNとMCMも同様に高い予測性能を達成し、GNNはトレーニング中に考慮されていないILと溶質を含む溶液のACに対して高品質な予測を可能にする。
論文 参考訳(メタデータ) (2022-06-23T15:27:29Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - One Versus all for deep Neural Network Incertitude (OVNNI)
quantification [12.734278426543332]
本稿では,データの疫学的不確実性を容易に定量化するための新しい手法を提案する。
本手法は,1つのクラス対他のクラス(OVA)を分類するために訓練されたDNNのアンサンブルの予測と,オール対オール(AVA)分類を実行するために訓練された標準DNNの予測とを混合して構成する。
論文 参考訳(メタデータ) (2020-06-01T14:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。