Fugu-MT 論文翻訳(概要): Condensed Sample-Guided Model Inversion for Knowledge Distillation

論文の概要: Condensed Sample-Guided Model Inversion for Knowledge Distillation

arxiv url: http://arxiv.org/abs/2408.13850v1
Date: Sun, 25 Aug 2024 14:43:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 17:40:08.912441
Title: Condensed Sample-Guided Model Inversion for Knowledge Distillation
Title（参考訳）: 知識蒸留のための凝縮サンプルガイドモデルインバージョン
Authors: Kuluhan Binici, Shivam Aggarwal, Cihan Acar, Nam Trung Pham, Karianto Leman, Gim Hee Lee, Tulika Mitra,
Abstract要約: 知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。 KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
参考スコア（独自算出の注目度）: 42.91823325342862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation (KD) is a key element in neural network compression that allows knowledge transfer from a pre-trained teacher model to a more compact student model. KD relies on access to the training dataset, which may not always be fully available due to privacy concerns or logistical issues related to the size of the data. To address this, "data-free" KD methods use synthetic data, generated through model inversion, to mimic the target data distribution. However, conventional model inversion methods are not designed to utilize supplementary information from the target dataset, and thus, cannot leverage it to improve performance, even when it is available. In this paper, we consider condensed samples, as a form of supplementary information, and introduce a method for using them to better approximate the target data distribution, thereby enhancing the KD performance. Our approach is versatile, evidenced by improvements of up to 11.4% in KD accuracy across various datasets and model inversion-based methods. Importantly, it remains effective even when using as few as one condensed sample per class, and can also enhance performance in few-shot scenarios where only limited real data samples are available.
Abstract（参考訳）: 知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。 KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。これを解決するため、「データフリー」なKD法では、モデル反転によって生成された合成データを用いて、対象データ分布を模倣する。しかし,従来のモデル逆転法は,対象データセットからの補足情報を利用するように設計されていないため,利用可能な場合でも性能向上には利用できない。本稿では, 縮合したサンプルを補足情報の一種とみなし, 対象データ分布をよりよく近似する手法を導入し, KD性能を向上する。我々のアプローチは多種多様であり、さまざまなデータセットとモデル反転ベースの手法で最大11.4%のKD精度の改善が証明されている。重要なことは、クラス毎に1つの凝縮サンプルを使用する場合でも有効であり、実際のデータサンプルが限られている数ショットのシナリオでもパフォーマンスを向上させることができる。

関連論文リスト

De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文参考訳（メタデータ） (2024-03-28T16:13:22Z)
Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文参考訳（メタデータ） (2023-11-23T11:34:48Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from Small Scale to Large Scale [55.97546756258374]
より強力なデータ拡張技術を採用し、より大きなデータセットを使用することで、バニラKDと他の細心の注意を払って設計されたKDとのギャップを直接削減できることを示す。より複雑なスキームにおけるバニラKDとその変種の研究は、より強力な訓練戦略と異なるモデル能力を含む、バニラKDはエレガントに単純だが、大規模なシナリオでは驚くべきほど効果的であることを示す。
論文参考訳（メタデータ） (2023-05-25T06:50:08Z)
Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文参考訳（メタデータ） (2021-08-26T14:01:04Z)
Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data [5.064036314529226]
本稿では,データフリーなKDフレームワークを提案する。実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
論文参考訳（メタデータ） (2021-08-11T08:11:08Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。