論文の概要: One Jump Is All You Need: Short-Cutting Transformers for Early Exit Prediction with One Jump to Fit All Exit Levels
- arxiv url: http://arxiv.org/abs/2504.13984v1
- Date: Fri, 18 Apr 2025 08:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:01:11.884152
- Title: One Jump Is All You Need: Short-Cutting Transformers for Early Exit Prediction with One Jump to Fit All Exit Levels
- Title(参考訳): ショートカッティング・トランスフォーマーで早期終了予測、全終了レベルまで1ジャンプ
- Authors: Amrit Diggavi Seshadri,
- Abstract要約: 本稿では,1つのOne-Jump-Fits-All(OJFA)低ランクショートカットを提案する。
OJFAの選択は、推論中に複数のショートカットジャンプを維持できる性能と大体一致していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To reduce the time and computational costs of inference of large language models, there has been interest in parameter-efficient low-rank early-exit casting of transformer hidden-representations to final-representations. Such low-rank short-cutting has been shown to outperform identity shortcuts at early model stages while offering parameter-efficiency in shortcut jumps. However, current low-rank methods maintain a separate early-exit shortcut jump to final-representations for each transformer intermediate block-level during inference. In this work, we propose selection of a single One-Jump-Fits-All (OJFA) low-rank shortcut that offers over a 30x reduction in shortcut parameter costs during inference. We show that despite this extreme reduction, our OJFA choice largely matches the performance of maintaining multiple shortcut jumps during inference and offers stable precision from all transformer block-levels for GPT2-XL, Phi3-Mini and Llama2-7B transformer models.
- Abstract(参考訳): 大規模言語モデルの推論に要する時間と計算コストを削減するため,変圧器の隠れ表現から最終表現へのパラメータ効率の低い初期出力キャストが注目されている。
このような低ランクのショートカットは、初期モデルでアイデンティティショートカットを上回り、ショートカットジャンプにおいてパラメータ効率を提供する。
しかし、現在のローランクメソッドは、推論中に各トランスフォーマー中間ブロックレベルに対して、異なる早期終了ショートカットジャンプを最終表現に維持する。
本研究では,1つのOne-Jump-Fits-All(OJFA)ローランクショートカットの選択を提案する。
この極端な削減にもかかわらず、我々のOJFA選択は、推定中の複数ショートカットジャンプの維持性能とほぼ一致し、GPT2-XL、Phi3-Mini、Llama2-7Bのトランスモデルの全てのトランスブロックレベルから安定した精度を提供することを示す。
関連論文リスト
- OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Less is More: Efficient Model Merging with Binary Task Switch [19.622432243113852]
タスクベクトルを3つのコンポーネントに分解するタスクスイッチを導入する。
タスクベクトルを二項化形式で格納することで、T-Switchは効率的なタスクパラメータストレージを確保しながらパラメータ競合を緩和する。
実験の結果,本手法は既存のベースラインよりも大幅な性能向上を実現し,完全精度パラメータの記憶空間を1~3%しか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-11-24T14:47:13Z) - Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction [0.0]
初期層上での線形変換による事前学習型変圧器のショートカットにより,早期推論の精度が向上することが示されている。
本研究では,NJTC(Narrow Jump to Conclusions)と正規化Narrow Jump to Conclusions(N-NJTC)を提案する。
NJTCは、標準的な線形ショートカットに代わるパラメータ効率の良い代替品であり、ショートカットパラメータの数を97%以上削減する。
GPT-2-XL, Phi3-Mini, Llama2-7B 変圧器モデルにおいて, N-NJTC は早期にアイデンティティショートカットを確実に上回り, 変圧器ブロックレベルから安定な精度を提供する。
論文 参考訳(メタデータ) (2024-09-21T10:09:26Z) - Universality and Limitations of Prompt Tuning [65.8354898840308]
トランスフォーマーアーキテクチャにおけるソフトプロンプトチューニングの役割を理解するための最初のステップの1つを取り上げる。
連続値関数に対する有限深度事前学習型変圧器を用いて、普遍性と制限のレンズからの即時チューニングを解析する。
この結果は、リプシッツ関数の集合における任意の列列列関数を近似するプロンプトを持つ強変換器の存在を保証する。
論文 参考訳(メタデータ) (2023-05-30T06:47:07Z) - PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and
Progressive Shift [139.17852337764586]
Vision Transformer (ViT) は、長距離依存をモデル化できるため、様々な視覚的タスクに対して大きな可能性を示している。
本稿では,複数の枝を持つラダー自己保持ブロックと,軽量トランスフォーマーバックボーンを開発するためのプログレッシブシフト機構を提案する。
論文 参考訳(メタデータ) (2023-04-07T05:21:37Z) - Training-Free Acceleration of ViTs with Delayed Spatial Merging [4.523939613157408]
トークンマージは視覚変換器(ViT)の推論をリトレーニングや微調整なしに高速化する新しいパラダイムとして登場した。
1) アクティベーション・アウトレイアと2) 階層表現の視点を付加することでトークンのマージを改善する。
DSM: Delayed Spatial Mergingと呼ばれる統合推論フレームワークを構築します。
論文 参考訳(メタデータ) (2023-03-04T05:34:25Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。