論文の概要: FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction
- arxiv url: http://arxiv.org/abs/2410.12513v1
- Date: Wed, 16 Oct 2024 12:45:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:39.699562
- Title: FiRST: Finetuning Router-Selective Transformers for Input-Adaptive Latency Reduction
- Title(参考訳): FiRST:入力適応レイテンシ低減のための微調整ルータ選択変換器
- Authors: Akriti Jain, Saransh Sharma, Koyel Mukherjee, Soumyabrata Pal,
- Abstract要約: FIRSTは、層固有のルータを使用して、各入力シーケンスに適応的にトランスフォーマー層のサブセットを選択することで、推論レイテンシを低減するアルゴリズムである。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
- 参考スコア(独自算出の注目度): 11.146015814220858
- License:
- Abstract: Auto-regressive Large Language Models (LLMs) demonstrate remarkable performance across domanins such as vision and language processing. However, due to sequential processing through a stack of transformer layers, autoregressive decoding faces significant computation/latency challenges, particularly in resource constrained environments like mobile and edge devices. Existing approaches in literature that aim to improve latency via skipping layers have two distinct flavors - 1) Early exit 2) Input-agnostic heuristics where tokens exit at pre-determined layers irrespective of input sequence. Both the above strategies have limitations - the former cannot be applied to handle KV Caching necessary for speed-ups in modern framework and the latter does not capture the variation in layer importance across tasks or more generally, across input sequences. To address both limitations, we propose FIRST, an algorithm that reduces inference latency by using layer-specific routers to select a subset of transformer layers adaptively for each input sequence - the prompt (during prefill stage) decides which layers will be skipped during decoding. FIRST preserves compatibility with KV caching enabling faster inference while being quality-aware. FIRST is model-agnostic and can be easily enabled on any pre-trained LLM. We further improve performance by incorporating LoRA adapters for fine-tuning on external datasets, enhancing task-specific accuracy while maintaining latency benefits. Our approach reveals that input adaptivity is critical - indeed, different task-specific middle layers play a crucial role in evolving hidden representations depending on task. Extensive experiments show that FIRST significantly reduces latency while retaining competitive performance (as compared to baselines), making our approach an efficient solution for LLM deployment in low-resource environments.
- Abstract(参考訳): 自動回帰型大規模言語モデル(LLMs)は、視覚や言語処理などのドマニン間で顕著なパフォーマンスを示す。
しかしながら、トランス層のスタックによるシーケンシャルな処理のため、自動回帰復号化は、特にモバイルやエッジデバイスのようなリソースに制約のある環境で、重要な計算/レイテンシの課題に直面している。
スキップ層によるレイテンシ向上をめざす文献における既存手法のフレーバーには2つの相違点がある。
2) 入力シーケンスに関係なく、予め決定された層にトークンが流出する入力非依存のヒューリスティック。
前者は最新のフレームワークでスピードアップに必要なKVキャッシュを扱うために適用できないし、後者はタスクやより一般的には、入力シーケンス間でのレイヤの重要性のばらつきを捉えない。
両制約に対処するため,レイヤ固有のルータを用いて,各入力シーケンスに対して適応的にトランスフォーマ層のサブセットを選択するアルゴリズムであるFIRSTを提案し,デコード時にどのレイヤをスキップするかをプロンプト(プリフィルステージ)で決定する。
FIRSTは品質を認識しながら高速な推論を可能にするKVキャッシュとの互換性を保っている。
FIRSTはモデルに依存しないため、事前訓練されたLLMでも容易に利用することができる。
外部データセットを微調整するためのLoRAアダプタを導入し、レイテンシの利点を維持しながらタスク固有の精度を向上させることにより、パフォーマンスをさらに向上する。
私たちのアプローチでは、入力適応性は重要であり、タスクによって異なるタスク固有の中間層が隠れた表現を進化させる上で重要な役割を担っています。
大規模な実験により、FIRSTは競合性能を維持しながら(ベースラインと比較して)遅延を著しく低減し、低リソース環境におけるLLMデプロイメントの効率的なソリューションとなることが示されている。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention [7.4088392854630625]
大規模言語モデル (LLM) は様々なNLPタスクにおいて大幅な進歩をもたらした。
本稿では,定位置スパークアテンションによる高速かつ高精度なLCMデコーディングシステムであるTidalDecodeを紹介する。
論文 参考訳(メタデータ) (2024-10-07T14:30:27Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Optimizing a Transformer-based network for a deep learning seismic
processing workflow [0.0]
StorSeismicは、様々な地震処理タスクに対応するためにTransformerをベースとした最近導入されたモデルである。
微調整作業における事前学習と競争の速さを観察し,バニラモデルと比較してトレーニングすべきパラメータを少なくする。
論文 参考訳(メタデータ) (2023-08-09T07:11:42Z) - LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
論文 参考訳(メタデータ) (2023-05-31T06:09:59Z) - RegFormer: An Efficient Projection-Aware Transformer Network for
Large-Scale Point Cloud Registration [73.69415797389195]
本稿では,大規模クラウドアライメントのためのエンドツーエンドトランス (RegFormer) ネットワークを提案する。
具体的には、プロジェクション対応階層変換器を提案し、長距離依存を捕捉し、外乱をフィルタする。
我々の変圧器は線形複雑であり、大規模シーンでも高い効率が保証される。
論文 参考訳(メタデータ) (2023-03-22T08:47:37Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。