論文の概要: TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer
- arxiv url: http://arxiv.org/abs/2307.14995v2
- Date: Fri, 19 Jan 2024 07:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:03:25.580846
- Title: TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer
- Title(参考訳): TransNormerLLM: TransNormerを改善した高速で優れた大規模言語モデル
- Authors: Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han,
Yunshen Wei, Baohong Lv, Xiao Luo, Yu Qiao, Yiran Zhong
- Abstract要約: 最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
- 参考スコア(独自算出の注目度): 34.790081960470964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TransNormerLLM, the first linear attention-based Large Language
Model (LLM) that outperforms conventional softmax attention-based models in
terms of both accuracy and efficiency. TransNormerLLM evolves from the previous
linear attention architecture TransNormer by making advanced modifications that
include positional embedding, linear attention acceleration, gating mechanisms,
tensor normalization, and inference acceleration and stabilization.
Specifically, we use LRPE together with an exponential decay to avoid attention
dilution issues while allowing the model to retain global interactions between
tokens. Additionally, we propose Lightning Attention, a cutting-edge technique
that accelerates linear attention by more than twice in runtime and reduces
memory usage by a remarkable four times. To further enhance the performance of
TransNormer, we leverage a gating mechanism for smooth training and a new
tensor normalization scheme to accelerate the model, resulting in an impressive
acceleration of over $20\%$. Furthermore, we develop a robust inference
algorithm that ensures numerical stability and consistent inference speed,
regardless of the sequence length, showcasing superior efficiency during both
training and inference stages. We also implement an efficient model parallel
schema for TransNormerLLM, enabling seamless deployment on large-scale clusters
and facilitating expansion to even more extensive models, i.e., LLMs with 175B
parameters. We validate our model design through a series of ablations and
train models with sizes of 385M, 1B, and 7B on our self-collected corpus.
Benchmark results demonstrate that our models not only match the performance of
state-of-the-art LLMs with Transformer but are also significantly faster. Code
is released at: https://github.com/OpenNLPLab/TransnormerLLM.
- Abstract(参考訳): 従来のソフトマックスアテンションモデルよりも精度と効率の両面で優れる最初の線形アテンションベースLarge Language Model (LLM) であるTransNormerLLMを提案する。
トランスノルメルムは、位置埋め込み、線形注意加速度、ゲーティング機構、テンソル正規化、推論の加速と安定化を含む高度な修正を行うことで、以前の線形注意アーキテクチャから進化する。
具体的には、LRPEと指数減衰を用いて、トークン間のグローバルな相互作用を保ちながら、注意希釈の問題を避ける。
さらに,線形注意を2倍以上高速化し,メモリ使用量を4倍に短縮する最先端技術であるlightning attentionを提案する。
トランスノーマーの性能をさらに高めるために,滑らかなトレーニングのためのゲーティング機構と,モデル加速のための新しいテンソル正規化スキームを活用し,印象的な加速を20-%$以上達成した。
さらに,シーケンス長に関わらず,数値安定性と一貫した推論速度を保証する頑健な推論アルゴリズムを開発し,トレーニングおよび推論段階において優れた効率を示す。
また、TransNormerLLMのための効率的なモデル並列スキーマを実装し、大規模クラスタへのシームレスなデプロイを可能にし、さらに広範囲なモデルの拡張を容易にする。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
ベンチマークの結果,我々のモデルは最先端llmとトランスフォーマーの性能に匹敵するだけでなく,はるかに高速であることが判明した。
コードはhttps://github.com/OpenNLPLab/TransnormerLLMで公開されている。
関連論文リスト
- AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention [19.618556742380086]
固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。
有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
論文 参考訳(メタデータ) (2024-05-27T17:38:13Z) - Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。