Fugu-MT 論文翻訳(概要): Transformer tricks: Precomputing the first layer

論文の概要: Transformer tricks: Precomputing the first layer

arxiv url: http://arxiv.org/abs/2402.13388v2
Date: Thu, 22 Feb 2024 05:32:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 11:41:13.022367
Title: Transformer tricks: Precomputing the first layer
Title（参考訳）: Transformerのトリック: 最初のレイヤのプリ計算
Authors: Nils Graef
Abstract要約: このマイクロペーパーは、RoPEでトランスフォーマーの推論を高速化するトリックを記述している。第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに小さく、コスト対トーケンが低くなる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This micro-paper describes a trick to speed up inference of transformers with RoPE (such as LLaMA, Mistral, PaLM, and Gemma). For these models, a large portion of the first transformer layer can be precomputed, which results in slightly lower latency and lower cost-per-token. Because this trick optimizes only one layer, the relative savings depend on the total number of layers. For example, the maximum savings for a model with only 4 layers (such as Whisper tiny) is limited to 25%, while a 32-layer model (such as Mistral-7B) is limited to 3% savings.
Abstract（参考訳）: このマイクロペーパーは、RoPE(LLaMA、Mistral、PaLM、Gemmaなど)でトランスフォーマーの推論を高速化するトリックを記述している。これらのモデルでは、第1変圧器層の大部分をプリ計算できるため、レイテンシがわずかに低く、コスト対トーケンが低くなる。このトリックは1つのレイヤのみを最適化するので、相対的な節約はレイヤの総数に依存する。例えば、わずか4層のモデル(Whisper Smallなど)の最大節約率は25%に制限され、32層のモデル(Mistral-7Bなど)は3%に制限されている。

関連論文リスト

H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文参考訳（メタデータ） (2025-09-08T17:59:59Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。 Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文参考訳（メタデータ） (2024-04-23T01:34:20Z)
Transformer tricks: Removing weights for skipless transformers [0.0]
このマイクロペーパーは、MQAとGQAに適した数学的に等価なバージョンを提案する。例えば、ミストラル7BのスキップレスバージョンからQとPを取り除くと、重量の15%が取り除かれる。
論文参考訳（メタデータ） (2024-04-18T17:45:19Z)
SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention [39.09650673080772]
SwitchHeadはアテンション層に有効なMoE手法である。我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。 SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
論文参考訳（メタデータ） (2023-12-13T09:00:21Z)
ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for Transformer Layers [38.310917646404576]
常時オンのデバイスのメモリ制約は、音声処理モデルをデプロイする際の大きな懸念点の1つである。本稿では,Residual Transformer という手法を提案する。トランスフォーマー層内の各重み行列は,1) 隣接層との共有フルランク成分と,2) 独自の低ランク成分とを含む。 10k時間音声認識および音声翻訳タスクの実験により,トランスフォーマーエンコーダのサイズを3倍に小さくすることができ,性能の低下が極めて少ないことがわかった。
論文参考訳（メタデータ） (2023-10-03T23:31:48Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文参考訳（メタデータ） (2021-11-24T19:53:46Z)
Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文参考訳（メタデータ） (2021-09-17T17:50:39Z)
What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。 IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文参考訳（メタデータ） (2021-09-08T21:22:52Z)
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing [78.48577649266018]
ハードウェア・アウェア・トランスフォーマー(HAT)は、リソース制約のあるハードウェアプラットフォーム上で低遅延推論を可能にするように設計されている。設計空間のすべての候補をカバーする$textitSuperTransformer$をトレーニングし、重量共有を備えた$textitSubTransformer$を効率的に生成します。 4つの機械翻訳タスクの実験により、HATは異なるハードウェアの効率的なモデルを見つけることができることを示した。
論文参考訳（メタデータ） (2020-05-28T17:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。