論文の概要: AdaSkip: Adaptive Sublayer Skipping for Accelerating Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2501.02336v1
- Date: Sat, 04 Jan 2025 17:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:25.768085
- Title: AdaSkip: Adaptive Sublayer Skipping for Accelerating Long-Context LLM Inference
- Title(参考訳): AdaSkip: 長期LLM推論の高速化のための適応型サブレイヤスキッピング
- Authors: Zhuomin He, Yizhen Yao, Pengfei Zuo, Bin Gao, Qinya Li, Zhenzhe Zheng, Fan Wu,
- Abstract要約: レイヤワイズ・スキップ法は有望な最適化であるが、長文推論では滅多に探索されない。
sysnameは、長文推論用に特別に設計された適応的なサブレイヤスキップ手法である。
sysnameはオンザフライの類似性情報を活用することで、重要でないレイヤを適応的に識別する。
- 参考スコア(独自算出の注目度): 9.041648974145216
- License:
- Abstract: Long-context large language models (LLMs) inference is increasingly critical, motivating a number of studies devoted to alleviating the substantial storage and computational costs in such scenarios. Layer-wise skipping methods are promising optimizations but rarely explored in long-context inference. We observe that existing layer-wise skipping strategies have several limitations when applied in long-context inference, including the inability to adapt to model and context variability, disregard for sublayer significance, and inapplicability for the prefilling phase. This paper proposes \sysname, an adaptive sublayer skipping method specifically designed for long-context inference. \sysname adaptively identifies less important layers by leveraging on-the-fly similarity information, enables sublayer-wise skipping, and accelerates both the prefilling and decoding phases. The effectiveness of \sysname is demonstrated through extensive experiments on various long-context benchmarks and models, showcasing its superior inference performance over existing baselines.
- Abstract(参考訳): LLM(Long-context Large Language Model)推論はますます重要になってきており、このようなシナリオにおけるかなりの記憶と計算コストを軽減するために多くの研究を動機付けている。
レイヤワイズ・スキップ法は有望な最適化であるが、長文推論では滅多に探索されない。
提案手法は,モデルやコンテキストの変動に適応できないこと,サブレイヤの重要さを無視すること,プリフィルフェーズに適用できないこと,など,長期コンテキスト推論に適用する場合にいくつかの制限がある。
本稿では,長文推論に特化して設計された適応型サブレイヤスキップ法である‘sysname’を提案する。
sysnameは、オンザフライの類似性情報を利用して、重要でないレイヤを適応的に識別し、サブレイヤワイドスキップを可能にし、プリフィルとデコードの両方のフェーズを高速化する。
sysnameの有効性は、様々な長期コンテキストベンチマークやモデルに対する広範な実験を通じて実証され、既存のベースラインよりも優れた推論性能を示している。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Accelerating Inference in Large Language Models with a Unified Layer Skipping Strategy [67.45518210171024]
動的計算手法は、いくつかの計算層をスキップすることで、Large Language Models (LLM) に対する顕著な加速を示す。
対象の高速化率のみに基づいて計算をスキップする層数を選択する統一層スキーッピング戦略を提案する。
機械翻訳とテキスト要約という2つの共通タスクの実験結果は、目標速度比が与えられた場合、統一層スキーピング戦略は推論性能と実際のモデルスループットの両方を著しく向上させることを示している。
論文 参考訳(メタデータ) (2024-04-10T12:12:07Z) - Structured Packing in LLM Training Improves Long Context Utilization [11.484631908171465]
本研究では,意味的相互依存を高めるための学習データの構造化について検討する。
本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。
我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
論文 参考訳(メタデータ) (2023-12-28T16:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。