論文の概要: Lizard: An Efficient Linearization Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2507.09025v3
- Date: Thu, 09 Oct 2025 20:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.804296
- Title: Lizard: An Efficient Linearization Framework for Large Language Models
- Title(参考訳): Lizard: 大規模言語モデルのための効率的な線形化フレームワーク
- Authors: Chien Van Nguyen, Ruiyi Zhang, Hanieh Deilamsalehy, Puneet Mathur, Viet Dac Lai, Haoliang Wang, Jayakumar Subramanian, Ryan A. Rossi, Trung Bui, Nikos Vlassis, Franck Dernoncourt, Thien Huu Nguyen,
- Abstract要約: プリトレーニングされたトランスフォーマーベース大規模言語モデル(LLM)をサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。
Lizardは、モデル品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、これらの制限に対処する。
5 ショット MMLU ベンチマークにおいて,Lizard は教師モデルの性能のほぼ無作為な回復を実現し,従来の手法よりも 9.4 ~ 24.5 ポイント高い性能を示した。
- 参考スコア(独自算出の注目度): 113.87302474262798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Lizard, a linearization framework that transforms pretrained Transformer-based Large Language Models (LLMs) into subquadratic architectures. Transformers faces severe computational and memory bottlenecks with long sequences due to the quadratic complexity of softmax attention and the growing Key-Value (KV) cache that makes inference memory-bound by context length. Lizard addresses these limitations by introducing a subquadratic attention mechanism that closely approximates softmax attention while preserving model quality. Unlike prior linearization methods constrained by fixed, non-adaptive structures, Lizard augments the architecture with compact, learnable modules that enable adaptive memory control and robust length generalization. Moreover, we introduce a hardwareaware algorithm that solves numerical instability in gated attention to accelerate training. Extensive experiments show that Lizard achieves near-lossless recovery of its teacher model's performance, significantly outperforming previous methods by up to 9.4 - 24.5 points on the 5-shot MMLU benchmark and demonstrating superior associative recall.
- Abstract(参考訳): プリトレーニングされたトランスフォーマーベース大規模言語モデル(LLM)をサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。
トランスフォーマーは、ソフトマックスアテンションの2次複雑さと、コンテクスト長による推論メモリバウンドを実現するキーバリュー(KV)キャッシュの増大により、長いシーケンスで厳しい計算とメモリボトルネックに直面している。
Lizardは、モデル品質を維持しながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、これらの制限に対処する。
固定された非適応構造で制約された以前の線形化法とは異なり、Lizardは適応的なメモリ制御と堅牢な長さ一般化を可能にするコンパクトで学習可能なモジュールでアーキテクチャを拡張している。
さらに,注意喚起時の数値不安定性を解き,学習を加速するハードウェアウェアアルゴリズムを提案する。
大規模な実験により、Lizardは教師モデルの性能をほぼ無作為に回復し、5ショットのMMLUベンチマークで9.4~24.5ポイントまで向上し、より優れた連想的リコールを示した。
関連論文リスト
- MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Probing In-Context Learning: Impact of Task Complexity and Model Architecture on Generalization and Efficiency [10.942999793311765]
タスクの複雑さとモデルアーキテクチャを体系的に変化させる、巧妙な実験フレームワークを用いて、文脈内学習(ICL)について検討する。
GPT2スタイルのトランスフォーマー、FlashAttention機構を備えたトランスフォーマー、畳み込みハイエナモデル、Mamba状態空間モデルという4つの異なるモデルを評価した。
論文 参考訳(メタデータ) (2025-05-10T00:22:40Z) - HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition [20.45747733568704]
骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
論文 参考訳(メタデータ) (2025-02-09T12:08:03Z) - ReGLA: Refining Gated Linear Attention [42.97193398172823]
線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
論文 参考訳(メタデータ) (2025-02-03T18:03:13Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。