論文の概要: Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method
- arxiv url: http://arxiv.org/abs/2508.14783v1
- Date: Wed, 20 Aug 2025 15:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.503873
- Title: Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method
- Title(参考訳): 合成適応型ガイドインベディング(SAGE):新しい知識蒸留法
- Authors: Suleyman Olcay Polat, Poli A. Nemkova, Mark V. Albert,
- Abstract要約: 本研究では,高学年モデル損失の地域において,動的にトレーニングデータを増強する適応蒸留フレームワークを提案する。
本手法は, 組込み空間における過小評価領域を同定し, 対象とする合成例を生成し, 学習指導を行う。
- 参考スコア(独自算出の注目度): 1.5839621757142595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model distillation enables the transfer of knowledge from large-scale models to compact student models, facilitating deployment in resource-constrained environments. However, conventional distillation approaches often suffer from computational overhead and limited generalization. We propose a novel adaptive distillation framework that dynamically augments training data in regions of high student model loss. Using UMAP-based dimensionality reduction and nearest neighbor sampling, our method identifies underperforming regions in the embedding space and generates targeted synthetic examples to guide student learning. To further improve efficiency, we introduce a lightweight teacher-student interface that bypasses the teacher's input layer, enabling direct distillation on vectorized representations. Experiments across standard NLP benchmarks demonstrate that our 66M-parameter student model consistently matches or surpasses established baselines, achieving 91.2% on QNLI and 92.3% on SST-2, while training with fewer epochs. These results highlight the promise of loss-aware data augmentation and vectorized distillation for efficient and effective model compression.
- Abstract(参考訳): モデル蒸留は、大規模モデルからコンパクトな学生モデルへの知識の伝達を可能にし、資源制約された環境への展開を容易にする。
しかし、従来の蒸留法は計算オーバーヘッドと限定的な一般化に悩まされることが多い。
本研究では,高学年モデル損失の地域において,動的にトレーニングデータを増強する適応蒸留フレームワークを提案する。
本手法は, 組込み空間における低性能領域を特定し, 対象とする合成例を生成し, 生徒の学習を指導する。
さらに効率を向上させるために,教師の入力層をバイパスし,ベクトル化表現を直接蒸留できる軽量な教師学生インタフェースを導入する。
標準NLPベンチマークによる実験では、我々の66Mパラメータの学生モデルは、確立されたベースラインと一貫して一致または超え、QNLIでは91.2%、SST-2では92.3%、エポックは少ない。
これらの結果は、効率よく効率的なモデル圧縮のための損失認識データ拡張とベクトル化蒸留の可能性を浮き彫りにした。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique [46.266960248570086]
本稿では,教師モデルと生徒モデルの両方の同時ロードを回避する,革新的なオフライン記録戦略を提案する。
このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。
実験により, 提案した蒸留方式により, 学生モデルが最先端モデルに匹敵する性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-09-03T16:12:12Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。