論文の概要: Liger: Linearizing Large Language Models to Gated Recurrent Structures
- arxiv url: http://arxiv.org/abs/2503.01496v1
- Date: Mon, 03 Mar 2025 13:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:35.816072
- Title: Liger: Linearizing Large Language Models to Gated Recurrent Structures
- Title(参考訳): Liger: 大規模言語モデルから拡張されたリカレント構造への線形化
- Authors: Disen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng,
- Abstract要約: 大規模言語モデル(LLM)の線形化は、事前訓練された標準モデルを線形再帰構造に変換する。
Ligerは、事前訓練されたLLMを余分なパラメータを加えることなくゲート線形リカレントモデルに変換する新しいアプローチである。
- 参考スコア(独自算出の注目度): 9.665802842933209
- License:
- Abstract: Transformers with linear recurrent modeling offer linear-time training and constant-memory inference. Despite their demonstrated efficiency and performance, pretraining such non-standard architectures from scratch remains costly and risky. The linearization of large language models (LLMs) transforms pretrained standard models into linear recurrent structures, enabling more efficient deployment. However, current linearization methods typically introduce additional feature map modules that require extensive fine-tuning and overlook the gating mechanisms used in state-of-the-art linear recurrent models. To address these issues, this paper presents Liger, short for Linearizing LLMs to gated recurrent structures. Liger is a novel approach for converting pretrained LLMs into gated linear recurrent models without adding extra parameters. It repurposes the pretrained key matrix weights to construct diverse gating mechanisms, facilitating the formation of various gated recurrent structures while avoiding the need to train additional components from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA), Liger restores the performance of the linearized gated recurrent models to match that of the original LLMs. Additionally, we introduce Liger Attention, an intra-layer hybrid attention mechanism, which significantly recovers 93\% of the Transformer-based LLM at 0.02\% pre-training tokens during the linearization process, achieving competitive results across multiple benchmarks, as validated on models ranging from 1B to 8B parameters. Code is available at https://github.com/OpenSparseLLMs/Linearization.
- Abstract(参考訳): リニアリカレントモデリングを備えたトランスフォーマーは、線形時間トレーニングと定数メモリ推論を提供する。
効率性と性能が実証されているにもかかわらず、そのような非標準アーキテクチャをスクラッチから事前訓練することは、コストとリスクが伴う。
大規模言語モデル(LLM)の線形化は、事前訓練された標準モデルを線形リカレント構造に変換し、より効率的な展開を可能にする。
しかし、現在の線形化法は通常、広範囲な微調整を必要とする追加の特徴写像モジュールを導入し、最先端の線形リカレントモデルで使用されるゲーティング機構を見落としている。
これらの問題に対処するために,LLMを線形化して繰り返し構造をゲートするLigerを提案する。
Ligerは、事前訓練されたLLMを余分なパラメータを加えることなくゲート線形リカレントモデルに変換する新しいアプローチである。
事前訓練された鍵行列重みを再利用し、多様なゲーティング機構を構築し、様々なゲートの繰り返し構造の形成を容易にし、スクラッチから追加のコンポーネントを訓練する必要がない。
Low-Rank Adaptation (LoRA) を用いた軽量微調整により、線形化ゲート再帰モデルの性能を元のLLMと一致するように復元する。
さらに,線形化プロセス中にトランスフォーマーベースLCMの93 %を0.02 %の事前学習トークンで大幅に回復し,複数のベンチマークで競合する結果が得られるような階層内ハイブリッドアテンション機構であるLiger Attentionを導入する。
コードはhttps://github.com/OpenSparseLLMs/Linearizationで入手できる。
関連論文リスト
- In-Context Learning of Polynomial Kernel Regression in Transformers with GLU Layers [19.606993863000906]
トランスフォーマーに基づくモデルは、インコンテキスト学習(ICL)において顕著な能力を示した
近年の研究では、勾配降下推定器を実装することで線形変換器がICLをどのように実行できるかについての知見が得られている。
我々は,LSAとGLUのようなフィードフォワード層を組み合わせる機構について検討し,このモデルがカーネル回帰の勾配降下の一段階を実行することを示す。
論文 参考訳(メタデータ) (2025-01-30T07:41:20Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。