論文の概要: Knowledge Distillation with Adapted Weight
- arxiv url: http://arxiv.org/abs/2501.02705v1
- Date: Mon, 06 Jan 2025 01:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:42.501328
- Title: Knowledge Distillation with Adapted Weight
- Title(参考訳): 適応重量による知識蒸留
- Authors: Sirong Wu, Xi Luo, Junjie Liu, Yuhui Deng,
- Abstract要約: 大規模モデルは、計算とエネルギーの制約により、リアルタイムシステムにデプロイするのは難しい。
Teacher-Student アーキテクチャによる知識蒸留は、大きなモデルの知識を圧縮するための持続可能な経路を提供する。
学習データに重みを割り当てるために影響関数を利用するtextbfKnowledge Distillation with Adaptive Influence Weight (KD-AIF) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.0635849782457925
- License:
- Abstract: Although large models have shown a strong capacity to solve large-scale problems in many areas including natural language and computer vision, their voluminous parameters are hard to deploy in a real-time system due to computational and energy constraints. Addressing this, knowledge distillation through Teacher-Student architecture offers a sustainable pathway to compress the knowledge of large models into more manageable sizes without significantly compromising performance. To enhance the robustness and interpretability of this framework, it is critical to understand how individual training data impact model performance, which is an area that remains underexplored. We propose the \textbf{Knowledge Distillation with Adaptive Influence Weight (KD-AIF)} framework which leverages influence functions from robust statistics to assign weights to training data, grounded in the four key SAFE principles: Sustainability, Accuracy, Fairness, and Explainability. This novel approach not only optimizes distillation but also increases transparency by revealing the significance of different data. The exploration of various update mechanisms within the KD-AIF framework further elucidates its potential to significantly improve learning efficiency and generalization in student models, marking a step toward more explainable and deployable Large Models. KD-AIF is effective in knowledge distillation while also showing exceptional performance in semi-supervised learning with outperforms existing baselines and methods in multiple benchmarks (CIFAR-100, CIFAR-10-4k, SVHN-1k, and GLUE).
- Abstract(参考訳): 大規模モデルは、自然言語やコンピュータビジョンを含む多くの領域で大規模な問題を解く能力が強いが、計算とエネルギーの制約により、リアルタイムシステムにその光沢なパラメータを配置することは困難である。
これに対応するために、Teacher-Studentアーキテクチャによる知識の蒸留は、大きなモデルの知識をより管理可能なサイズに圧縮し、性能を著しく損なうことなく、持続可能な経路を提供する。
このフレームワークの堅牢性と解釈可能性を高めるために、個々のトレーニングデータがどのようにモデルのパフォーマンスに与える影響を理解することが重要である。
本研究では, 安定度, 正確度, 公正度, 説明可能性の4つの鍵となるSAFE原則を基礎として, 頑健な統計から影響関数を利用して重みをトレーニングデータに割り当てる, 適応的影響重み付きtextbf{Knowledge Distillation with Adaptive Influence Weight (KD-AIF) フレームワークを提案する。
この新しいアプローチは蒸留を最適化するだけでなく、異なるデータの重要性を明らかにすることによって透明性を高める。
KD-AIFフレームワーク内での様々な更新メカニズムの探索により、学生モデルにおける学習効率と一般化を大幅に改善する可能性が解明され、より説明しやすくデプロイ可能な大規模モデルへの一歩となる。
KD-AIFは知識蒸留において有効であり、また、既存のベースラインとメソッドを複数のベンチマーク(CIFAR-100, CIFAR-10-4k, SVHN-1k, GLUE)で上回る半教師あり学習において、例外的な性能を示す。
関連論文リスト
- CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination [28.061239778773423]
CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。
CLIPは事前学習データのかなりのコーパスに大きく依存しており、計算資源を消費している。
CLIP-CID(CLIP-CID)は,大規模視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する蒸留機構である。
論文 参考訳(メタデータ) (2024-08-18T11:23:21Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Distilling Out-of-Distribution Robustness from Vision-Language
Foundation Models [40.885755686727855]
本稿では,視覚モデルのロバスト性を改善するための,概念的にシンプルで軽量なフレームワークを提案する。
プレトレーニング基礎モデルから蒸留する際, 分布外ロバスト性には強い効果が認められた。
データ拡張設定による知識蒸留におけるロバストな教師の活用のための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2023-11-02T17:55:13Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。