論文の概要: On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention
- arxiv url: http://arxiv.org/abs/2506.09316v3
- Date: Tue, 17 Jun 2025 04:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.089956
- Title: On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention
- Title(参考訳): 変圧器の2状態線形注意に対するオンザフライ適応蒸留
- Authors: Yeonju Ro, Zhenyu Zhang, Souvik Kundu, Zhangyang Wang, Aditya Akella,
- Abstract要約: 大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
- 参考スコア(独自算出の注目度): 53.22963042513293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at capturing global token dependencies via self-attention but face prohibitive compute and memory costs on lengthy inputs. While sub-quadratic methods (e.g., linear attention) can reduce these costs, they often degrade accuracy due to overemphasizing recent tokens. In this work, we first propose dual-state linear attention (DSLA), a novel design that maintains two specialized hidden states-one for preserving historical context and one for tracking recency-thereby mitigating the short-range bias typical of linear-attention architectures. To further balance efficiency and accuracy under dynamic workload conditions, we introduce DSLA-Serve, an online adaptive distillation framework that progressively replaces Transformer layers with DSLA layers at inference time, guided by a sensitivity-based layer ordering. DSLA-Serve uses a chained fine-tuning strategy to ensure that each newly converted DSLA layer remains consistent with previously replaced layers, preserving the overall quality. Extensive evaluations on commonsense reasoning, long-context QA, and text summarization demonstrate that DSLA-Serve yields 2.3x faster inference than Llama2-7B and 3.0x faster than the hybrid Zamba-7B, while retaining comparable performance across downstream tasks. Our ablation studies show that DSLA's dual states capture both global and local dependencies, addressing the historical-token underrepresentation seen in prior linear attentions. Codes are available at https://github.com/utnslab/DSLA-Serve.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
サブクワッドラティック法(例えば線形注意法)はこれらのコストを削減できるが、近年のトークンの過度な強調による精度の低下がしばしばある。
本研究は,まず,二状態線形アテンション(DSLA)を提案する。これは,歴史的文脈を保存するための2つの特別な隠れ状態と,線形アテンションアーキテクチャの典型的な短距離バイアスを緩和して,その傾向を追跡するための設計である。
動的ワークロード条件下での効率性と精度をさらに高めるために,Transformer 層を DSLA 層に徐々に置き換えるオンライン適応蒸留フレームワーク DSLA-Serve を紹介した。
DSLA-Serveは、チェーン化された微調整戦略を使用して、新しく変換された各DSLA層が、以前の置換されたレイヤと一貫性を保ち、全体的な品質を維持する。
DSLA-ServeはLlama2-7Bより2.3倍高速で、Zamba-7Bより3.0倍高速で、下流タスク間で同等の性能を維持している。
我々のアブレーション研究は、DSLAの二重状態がグローバルな依存とローカルな依存の両方を捉えていることを示している。
コードはhttps://github.com/utnslab/DSLA-Serve.comで入手できる。
関連論文リスト
- Constrained Entropic Unlearning: A Primal-Dual Framework for Large Language Models [7.566515311806724]
大規模言語モデル(LLM)が現実の環境でデプロイされるようになると、機密性、時代遅れ、あるいはプロプライエタリな情報を漏らさなくてはならなくなる。
既存の未学習の手法は、忘れと保持を規則化されたトレードオフとして定式化し、両方の目的を1つのスカラー化された損失に組み合わせる。
制約付き最適化問題として,LLMアンラーニングの新たな定式化を提案する。
論文 参考訳(メタデータ) (2025-06-05T17:55:23Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
トランスフォーマーは、コンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存して予測を行う。
TAPEは、レイヤ間のシーケンスコンテンツを組み込むことで、位置埋め込みを強化する新しいフレームワークである。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction [11.146015814220858]
本稿では、層固有のルータを用いて、各入力シーケンスに対して適応的に変換器層のサブセットを選択することでレイテンシを低減するアルゴリズムであるFiRSTを提案する。
FiRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を維持する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
論文 参考訳(メタデータ) (2024-10-16T12:45:35Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。