論文の概要: Distilling to Hybrid Attention Models via KL-Guided Layer Selection
- arxiv url: http://arxiv.org/abs/2512.20569v1
- Date: Tue, 23 Dec 2025 18:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.963076
- Title: Distilling to Hybrid Attention Models via KL-Guided Layer Selection
- Title(参考訳): KL誘導層選択によるハイブリッド注意モデルへの蒸留
- Authors: Yanhong Li, Songlin Yang, Shawn Tan, Mayank Mishra, Rameswar Panda, Jiawei Zhou, Yoon Kim,
- Abstract要約: 本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
- 参考スコア(独自算出の注目度): 66.06591032073744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling pretrained softmax attention Transformers into more efficient hybrid architectures that interleave softmax and linear attention layers is a promising approach for improving the inference efficiency of LLMs without requiring expensive pretraining from scratch. A critical factor in the conversion process is layer selection, i.e., deciding on which layers to convert to linear attention variants. This paper describes a simple and efficient recipe for layer selection that uses layer importance scores derived from a small amount of training on generic text data. Once the layers have been selected we use a recent pipeline for the distillation process itself \citep[RADLADS;][]{goldstein2025radlads}, which consists of attention weight transfer, hidden state alignment, KL-based distribution matching, followed by a small amount of finetuning. We find that this approach is more effective than existing approaches for layer selection, including heuristics that uniformly interleave linear attentions based on a fixed ratio, as well as more involved approaches that rely on specialized diagnostic datasets.
- Abstract(参考訳): ソフトマックス層とリニアアテンション層をインターリーブするより効率的なハイブリッドアーキテクチャへの事前学習型ソフトマックスアテンショントランスフォーマーの蒸留は,スクラッチから高価な事前トレーニングを必要とせず,LLMの推論効率を向上させるための有望なアプローチである。
変換過程における重要な要素は、層選択、すなわちどの層を線形注意変種に変換するかを決定することである。
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
ひとたび層が選択されたら、蒸留プロセス自体に最近のパイプラインを使用し、注意重量移動、隠れ状態アライメント、KLに基づく分布マッチング、そして少量の微調整からなる。
このアプローチは、固定比に基づいて線形の注意を均一に解き放つヒューリスティックや、専門的な診断データセットに依存するより複雑なアプローチなど、既存の層選択アプローチよりも効果的であることがわかった。
関連論文リスト
- Untangling Component Imbalance in Hybrid Linear Attention Conversion Methods [14.82822709954587]
学習後線形化法は, 事前学習した変換器を線形モデルに効率的に変換する。
既存のハイブリッドメソッドは、必然的に線形成分をバイパスする。
バランスの取れたコンポーネントの使用を確保するための3つのソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-07T13:11:13Z) - Degrees of Freedom for Linear Attention: Distilling Softmax Attention with Optimal Feature Efficiency [37.02934235737917]
統計的自由度の概念を用いて線形注意における特徴次元を決定するための原理的手法を提案する。
本手法は, 計算予算の固定化により, 誤差が小さくなることを示す。
我々の発見はまた、注意機構の複雑さが層間でどのように進化するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-07-04T06:59:17Z) - Transformer-Driven Active Transfer Learning for Cross-Hyperspectral Image Classification [3.087068801861429]
ハイパースペクトル画像(HSI)分類は、高スペクトル次元、重要な領域シフト、ラベル付きデータの可用性の制限による固有の課題を示す。
本稿では,空間スペクトル変換器(SST)のバックボーン上に構築された,新しいアクティブトランスファー学習(ATL)フレームワークを提案する。
このフレームワークは多段階移動学習と不確実性多様性駆動型能動学習機構を統合する。
論文 参考訳(メタデータ) (2024-11-27T07:53:39Z) - Exploring Selective Layer Fine-Tuning in Federated Learning [48.470385357429215]
フェデレートラーニング(FL)は,分散データを用いた基礎モデルの微調整のための,有望なパラダイムとして登場した。
FLにおける選択的層微調整について検討し、クライアントがローカルデータやリソースに応じて選択した層を調整できるフレキシブルなアプローチを強調した。
論文 参考訳(メタデータ) (2024-08-28T07:48:39Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - PALM: Pushing Adaptive Learning Rate Mechanisms for Continual Test-Time Adaptation [6.181548939188321]
動的環境における実世界の視覚モデルは、領域分布の急激なシフトに直面し、認識性能が低下する。
本研究では,これらの変化領域に対して事前学習した音源識別モデルを調整するための連続テスト時間適応(CTTA)を提案する。
我々は, CIFAR-10C, CIFAR-100C, ImageNet-Cで画像分類実験を行い, 従来の手法に比べて優れた有効性を示した。
論文 参考訳(メタデータ) (2024-03-15T19:35:10Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。