論文の概要: Optimizing Knowledge Distillation in Transformers: Enabling Multi-Head Attention without Alignment Barriers
- arxiv url: http://arxiv.org/abs/2502.07436v1
- Date: Tue, 11 Feb 2025 10:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:37.507307
- Title: Optimizing Knowledge Distillation in Transformers: Enabling Multi-Head Attention without Alignment Barriers
- Title(参考訳): 変圧器における知識蒸留の最適化--アライメントバリアを伴わないマルチヘッドアテンションの実現
- Authors: Zhaodong Bing, Linze Li, Jiajun Liang,
- Abstract要約: 既存の方法は、同じ頭部数を必要とするか、次元ギャップを橋渡しするためにプロジェクターを導入する。
Squeezing-Heads Distillation (SHD) は頭部数が異なるモデル間のシームレスな知識伝達を可能にする新しい手法である。
- 参考スコア(独自算出の注目度): 7.386296525051779
- License:
- Abstract: Knowledge distillation (KD) in transformers often faces challenges due to misalignment in the number of attention heads between teacher and student models. Existing methods either require identical head counts or introduce projectors to bridge dimensional gaps, limiting flexibility and efficiency. We propose Squeezing-Heads Distillation (SHD), a novel approach that enables seamless knowledge transfer between models with varying head counts by compressing multi-head attention maps via efficient linear approximation. Unlike prior work, SHD eliminates alignment barriers without additional parameters or architectural modifications. Our method dynamically approximates the combined effect of multiple teacher heads into fewer student heads, preserving fine-grained attention patterns while reducing redundancy. Experiments across language (LLaMA, GPT) and vision (DiT, MDT) generative and vision (DeiT) discriminative tasks demonstrate SHD's effectiveness: it outperforms logit-based and feature-alignment KD baselines, achieving state-of-the-art results in image classification, image generation language fine-tuning, and language pre-training. The key innovations of flexible head compression, projector-free design, and linear-time complexity make SHD a versatile and scalable solution for distilling modern transformers. This work bridges a critical gap in KD, enabling efficient deployment of compact models without compromising performance.
- Abstract(参考訳): 変圧器の知識蒸留(KD)は、教師と学生のモデル間の注意点数の誤調整によってしばしば困難に直面する。
既存の方法は、同じ頭数を必要とするか、次元ギャップを埋めるためにプロジェクターを導入し、柔軟性と効率を制限している。
Squeezing-Heads Distillation (SHD) は,効率的な線形近似によるマルチヘッドアテンションマップの圧縮により,頭部数が異なるモデル間のシームレスな知識伝達を可能にする新しい手法である。
以前の作業とは異なり、SHDは追加のパラメータやアーキテクチャの変更なしにアライメント障壁を取り除く。
提案手法は,複数の教師の頭が組み合わさった効果を学生の頭数に動的に近似し,微粒な注意パターンを保ちながら冗長性を低下させる。
言語(LLaMA, GPT)と視覚(DiT, MDT)による生成と視覚(DeiT)の識別タスクは、SHDの有効性を示している。
フレキシブルヘッド圧縮、プロジェクタフリー設計、線形時間複雑性といった重要な革新により、SHDは現代のトランスフォーマーを蒸留するための汎用的でスケーラブルなソリューションとなる。
この作業はKDにおける重要なギャップを埋め、性能を損なうことなく、コンパクトモデルの効率的な展開を可能にする。
関連論文リスト
- Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。
最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。
本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文 参考訳(メタデータ) (2024-03-25T17:59:35Z) - Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation [3.759878064139572]
本稿では,機能マッピング問題に対処するためのA2D(Align-to-Distill)戦略を紹介する。
実験の結果,WMT-2022->DsbおよびWMT-2014 En->Deに対して,最大3.61点,+0.63点のBLEU値が得られた。
論文 参考訳(メタデータ) (2024-03-03T11:13:44Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。