論文の概要: LinearARD: Linear-Memory Attention Distillation for RoPE Restoration
- arxiv url: http://arxiv.org/abs/2604.00004v1
- Date: Mon, 09 Mar 2026 10:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.178752
- Title: LinearARD: Linear-Memory Attention Distillation for RoPE Restoration
- Title(参考訳): リニアカード:RoPE修復のためのリニアメモリ留置蒸留
- Authors: Ning Yang, Hengyu Zhong, Wentao Wang, Baoliang Tian, Haijun Zhang, Jun Wang,
- Abstract要約: LinearARDは、RoPE(Rotary Position Embeddings)スケールの学生を、凍結したネイティブ-RoPE教師との注意構造整合によって復元する。
n 倍 n 倍の関係写像の二次的メモリボトルネックを克服するために,線形メモリカーネルを導入する。
4Kから32Kに拡張されたLLaMA2-7Bでは、LinearARDは、最先端のベースラインの短文性能の98.3%を回復し、長文のベンチマークではそれらを上回っている。
- 参考スコア(独自算出の注目度): 18.31933793423935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extension of context windows in Large Language Models is typically facilitated by scaling positional encodings followed by lightweight Continual Pre-Training (CPT). While effective for processing long sequences, this paradigm often disrupts original model capabilities, leading to performance degradation on standard short-text benchmarks. We propose LinearARD, a self-distillation method that restores Rotary Position Embeddings (RoPE)-scaled students through attention-structure consistency with a frozen native-RoPE teacher. Rather than matching opaque hidden states, LinearARD aligns the row-wise distributions of dense $Q/Q$, $K/K$, and $V/V$ self-relation matrices to directly supervise attention dynamics. To overcome the quadratic memory bottleneck of $n \times n$ relation maps, we introduce a linear-memory kernel. This kernel leverages per-token log-sum-exp statistics and fuses logit recomputation into the backward pass to compute exact Kullback-Leibler divergence and gradients. On LLaMA2-7B extended from 4K to 32K, LinearARD recovers 98.3\% of the short-text performance of state-of-the-art baselines while surpassing them on long-context benchmarks. Notably, our method achieves these results using only \textbf{4.25M} training tokens compared to the \textbf{256M} tokens required by LongReD and CPT. Our code is available at https://github.com/gracefulning/LinearARD.
- Abstract(参考訳): 大規模言語モデルにおけるコンテキストウィンドウの拡張は、通常、位置エンコーディングのスケーリングと、軽量な連続事前訓練(CPT)によって促進される。
このパラダイムは長いシーケンスを処理するのに有効であるが、しばしばオリジナルのモデル機能を破壊し、標準のショートテキストベンチマークのパフォーマンスが低下する。
リニアード(LinearARD)は,RoPE(Rotary Position Embeddings)スケールの学生を,凍結したネイティブ-RoPE教師との注意構造整合性により復元する自己蒸留法である。
不透明な隠れ状態と一致するのではなく、LinearARDは、注意力学を直接監督するために、高密度な$Q/Q$、$K/K$、および$V/V$の自己相関行列の行ワイズ分布を整列する。
n$関係写像の二次的メモリボトルネックを克服するために,線形メモリカーネルを導入する。
このカーネルは、トークン毎のlog-sum-exp統計を利用して、ロジット再計算を後方パスに融合し、正確なKullback-Leibler分散と勾配を計算する。
4Kから32Kに拡張されたLLaMA2-7Bでは、LinearARDは、最先端のベースラインの短文性能の98.3\%を回復し、長文のベンチマークではそれらを上回っている。
特に,LongReD および CPT で要求される \textbf{256M} トークンと比較して,これらの結果が得られた。
私たちのコードはhttps://github.com/gracefulning/LinearARD.comで利用可能です。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling [0.0]
既存のスパースアテンション手法は、コンテキスト適応性、オーバーヘッドのサンプリング、微調整コストのトレードオフに直面している。
注意分布に垂直スラッシュ構造パターンを用いる軽量なトレーニング機構であるVSPrefillを提案する。
VSPrefillは注意点の98.35%を保存し、コンテキスト長128kで平均4.95倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2026-03-03T09:24:58Z) - Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Efficient Low Rank Attention for Long-Context Inference in Large Language Models [41.24530756499533]
低ランククエリとキーアテンション(LRQK)は、プリフィル段階で、完全精度クエリとキー行列をコンパクトなランク-(r)要素に分解するフレームワークである。
トップ(k)トークンと、最近のトークンの小さな固定セットだけを選択することで、LRQKは、完全に精度の低いKVペアだけを転送するヒットアンドミス機構を備えた混合GPU-CPUキャッシュを使用する。
論文 参考訳(メタデータ) (2025-10-25T11:43:27Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。