論文の概要: StagFormer: Time Staggering Transformer Decoding for RunningLayers In Parallel
- arxiv url: http://arxiv.org/abs/2501.15665v1
- Date: Sun, 26 Jan 2025 20:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:45.306498
- Title: StagFormer: Time Staggering Transformer Decoding for RunningLayers In Parallel
- Title(参考訳): StagFormer: 並列でLayerを実行するための時間短縮変換器デコード
- Authors: Dylan Cutler, Arun Kandoor, Nishanth Dikkala, Nikunj Saunshi, Xin Wang, Rina Panigrahy,
- Abstract要約: StagFormerは、モデルの異なるセクションを33%のスピードアップで並列に実行することを可能にする。
メモリが限られている環境では、ステージングされた異なるセクション間でのウェイトシェアリングがより実用的であることを示す。
- 参考スコア(独自算出の注目度): 18.90131444504415
- License:
- Abstract: Standard decoding in a Transformer based language model is inherently sequential as we wait for a token's embedding to pass through all the layers in the network before starting the generation of the next token. In this work, we propose a new architecture StagFormer (Staggered Transformer), which staggered execution along the time axis and thereby enables parallelizing the decoding process along the depth of the model. We achieve this by breaking the dependency of the token representation at time step $i$ in layer $l$ upon the representations of tokens until time step $i$ from layer $l-1$. Instead, we stagger the execution and only allow a dependency on token representations until time step $i-1$. The later sections of the Transformer still get access to the ``rich" representations from the prior section but only from those token positions which are one time step behind. StagFormer allows for different sections of the model to be executed in parallel yielding at potential 33\% speedup in decoding while being quality neutral in our simulations. We also explore many natural variants of this idea. We present how weight-sharing across the different sections being staggered can be more practical in settings with limited memory. We show how one can approximate a recurrent model during inference using such weight-sharing. We explore the efficacy of using a bounded window attention to pass information from one section to another which helps drive further latency gains for some applications. We also explore demonstrate the scalability of the staggering idea over more than 2 sections of the Transformer.
- Abstract(参考訳): Transformerベースの言語モデルにおける標準的なデコーディングは、次のトークンの生成を開始する前に、トークンの埋め込みがネットワーク内のすべてのレイヤを通過するのを待つため、本質的にシーケンシャルです。
本研究では,時間軸に沿った実行を停滞させ,モデル深度に沿って復号プロセスの並列化を可能にする新しいアーキテクチャ,Staggered Transformerを提案する。
私たちは、時間ステップ$i$ in layer $l$のトークン表現への依存性を、時間ステップ$i$ from layer $l-1$まで破壊することで、これを実現する。
代わりに、実行をステージングし、タイムステップ$i-1$までトークン表現への依存性のみを許可します。
Transformerの後半のセクションは、まだ以前のセクションから `rich" 表現にアクセスできますが、そのトークン位置からしかアクセスできません。
StagFormerは、モデルの異なるセクションを並列に実行し、デコードにおいて33倍の速度でデコードでき、シミュレーションでは品質が中立である。
我々はまた、このアイデアの多くの自然変種を探求する。
メモリが制限された環境では、ステージングされた異なるセクション間での重量共有がより実践的になり得ることを示す。
このような重み付けを用いた推論において、再帰モデルを近似する方法を示す。
我々は、あるセクションから別のセクションに情報を渡すために、バウンドウィンドウアテンションを使用することの有効性について検討する。
また、Transformerの2つ以上のセクションで、停滞するアイデアのスケーラビリティを実証する。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Mixture-of-Depths: Dynamically allocating compute in transformer-based language models [8.774705201394916]
トランスフォーマーベースの言語モデルは、FLOPを入力シーケンスに均一に展開した。
変換器はシーケンス内の特定の位置にFLOPを動的に割り当てることが可能であることを示す。
論文 参考訳(メタデータ) (2024-04-02T19:28:11Z) - PaSS: Parallel Speculative Sampling [29.23180061749074]
言語モデルのサイズを数千億のパラメータに拡大すると、幅広いタスクにおいて素晴らしいパフォーマンスが得られます。
生成時にこれらのモデルは自動回帰的に使用され、生成されたトークンごとにフォワードパスを必要とし、メモリからパラメータの完全なセットを読み取る。
有望なパフォーマンス(最大30%$スピードアップ)を示しますが、追加のパラメータは$O(d_emb)$でしかありません。
論文 参考訳(メタデータ) (2023-11-22T18:37:27Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。