論文の概要: Condensed Data Expansion Using Model Inversion for Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2408.13850v2
- Date: Mon, 10 Nov 2025 05:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.280754
- Title: Condensed Data Expansion Using Model Inversion for Knowledge Distillation
- Title(参考訳): 知識蒸留のためのモデルインバージョンを用いた凝縮データ拡張
- Authors: Kuluhan Binici, Shivam Aggarwal, Cihan Acar, Nam Trung Pham, Karianto Leman, Gim Hee Lee, Tulika Mitra,
- Abstract要約: 本稿では,モデルインバージョンを用いた縮合データセットの拡張手法を提案する。
凝縮したサンプルを補完する合成データを作成することにより、トレーニングセットを充実させ、基礎となるデータ分布をよりよく近似する。
本手法は, 凝縮データセットのみを用いた場合と比較して, KD精度が著しく向上したことを示す。
- 参考スコア(独自算出の注目度): 39.800536851433776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Condensed datasets offer a compact representation of larger datasets, but training models directly on them or using them to enhance model performance through knowledge distillation (KD) can result in suboptimal outcomes due to limited information. To address this, we propose a method that expands condensed datasets using model inversion, a technique for generating synthetic data based on the impressions of a pre-trained model on its training data. This approach is particularly well-suited for KD scenarios, as the teacher model is already pre-trained and retains knowledge of the original training data. By creating synthetic data that complements the condensed samples, we enrich the training set and better approximate the underlying data distribution, leading to improvements in student model accuracy during knowledge distillation. Our method demonstrates significant gains in KD accuracy compared to using condensed datasets alone and outperforms standard model inversion-based KD methods by up to 11.4% across various datasets and model architectures. Importantly, it remains effective even when using as few as one condensed sample per class, and can also enhance performance in few-shot scenarios where only limited real data samples are available.
- Abstract(参考訳): 凝縮データセットは、より大きなデータセットのコンパクトな表現を提供するが、その上でモデルを直接トレーニングしたり、あるいはそれを用いて知識蒸留(KD)を通じてモデル性能を向上させることは、限られた情報によって最適以下の結果をもたらす可能性がある。
そこで本研究では,モデルインバージョンを用いた凝縮データセットの拡張手法を提案する。
このアプローチは、教師モデルがすでに事前トレーニング済みであり、元のトレーニングデータに関する知識を保持するため、KDシナリオに特に適している。
凝縮したサンプルを補完する合成データを作成することにより、トレーニングセットを充実させ、基礎となるデータ分布をよりよく近似し、知識蒸留時の生徒モデル精度の向上につながる。
本手法は, 凝縮データセットのみを用いた場合に比べてKD精度が著しく向上し, 各種データセットやモデルアーキテクチャにおいて, 標準モデルインバージョンベースのKD手法を最大11.4%向上させる。
重要なことは、クラス毎に1つの凝縮サンプルを使用する場合でも有効であり、実際のデータサンプルが限られている数ショットのシナリオでもパフォーマンスを向上させることができる。
関連論文リスト
- The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation [37.38634940034755]
本稿では,チェーン・オブ・ソート(CoT)蒸留におけるデータ操作を調査する最初のデータ中心型ベンチマークであるDC-CoTを紹介する。
我々は、これらのデータ操作が複数の推論データセットの学生モデル性能に与える影響を厳格に評価する。
論文 参考訳(メタデータ) (2025-05-24T15:54:19Z) - De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - VanillaKD: Revisit the Power of Vanilla Knowledge Distillation from
Small Scale to Large Scale [55.97546756258374]
より強力なデータ拡張技術を採用し、より大きなデータセットを使用することで、バニラKDと他の細心の注意を払って設計されたKDとのギャップを直接削減できることを示す。
より複雑なスキームにおけるバニラKDとその変種の研究は、より強力な訓練戦略と異なるモデル能力を含む、バニラKDはエレガントに単純だが、大規模なシナリオでは驚くべきほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-25T06:50:08Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Preventing Catastrophic Forgetting and Distribution Mismatch in
Knowledge Distillation via Synthetic Data [5.064036314529226]
本稿では,データフリーなKDフレームワークを提案する。
実験により,KDを用いて得られた学生モデルの精度を,最先端の手法と比較して向上できることが実証された。
論文 参考訳(メタデータ) (2021-08-11T08:11:08Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。