論文の概要: Transformer tricks: Precomputing the first layer
- arxiv url: http://arxiv.org/abs/2402.13388v3
- Date: Tue, 12 Mar 2024 00:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 00:33:18.798748
- Title: Transformer tricks: Precomputing the first layer
- Title(参考訳): Transformerのトリック: 最初のレイヤのプリ計算
- Authors: Nils Graef
- Abstract要約: このマイクロペーパーは、RoPEでトランスフォーマーの推論を高速化するトリックを記述している。
第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに小さく、コスト対トーケンが低くなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This micro-paper describes a trick to speed up inference of transformers with
RoPE (such as LLaMA, Mistral, PaLM, and Gemma). For these models, a large
portion of the first transformer layer can be precomputed, which results in
slightly lower latency and lower cost-per-token. Because this trick optimizes
only one layer, the relative savings depend on the total number of layers. For
example, the maximum savings for a model with only 4 layers (such as Whisper
tiny) is limited to 25%, while a 32-layer model is limited to 3% savings. See
https://github.com/OpenMachine-ai/transformer-tricks for code and more
transformer tricks.
- Abstract(参考訳): このマイクロペーパーは、RoPE(LLaMA、Mistral、PaLM、Gemmaなど)でトランスフォーマーの推論を高速化するトリックを記述している。
これらのモデルでは、第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに低く、コスト対トーケンが低くなる。
このトリックは1つのレイヤのみを最適化するので、相対的な節約はレイヤの総数に依存する。
例えば、4層しか持たないモデル(例えばWhisper Small)の最大節約率は25%に制限され、32層モデルは3%に制限されている。
コードにはhttps://github.com/OpenMachine-ai/transformer-tricksを参照してください。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Transformer tricks: Removing weights for skipless transformers [0.0]
このマイクロペーパーは、MQAとGQAに適した数学的に等価なバージョンを提案する。
例えば、ミストラル7BのスキップレスバージョンからQとPを取り除くと、重量の15%が取り除かれる。
論文 参考訳(メタデータ) (2024-04-18T17:45:19Z) - SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention [39.09650673080772]
SwitchHeadはアテンション層に有効なMoE手法である。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
論文 参考訳(メタデータ) (2023-12-13T09:00:21Z) - ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for
Transformer Layers [38.310917646404576]
常時オンのデバイスのメモリ制約は、音声処理モデルをデプロイする際の大きな懸念点の1つである。
本稿では,Residual Transformer という手法を提案する。トランスフォーマー層内の各重み行列は,1) 隣接層との共有フルランク成分と,2) 独自の低ランク成分とを含む。
10k時間音声認識および音声翻訳タスクの実験により,トランスフォーマーエンコーダのサイズを3倍に小さくすることができ,性能の低下が極めて少ないことがわかった。
論文 参考訳(メタデータ) (2023-10-03T23:31:48Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。