論文の概要: SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
- arxiv url: http://arxiv.org/abs/2412.12094v1
- Date: Mon, 16 Dec 2024 18:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:48.978019
- Title: SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator
- Title(参考訳): SepLLM: ひとつのセグメントをひとつのセパレータに圧縮することで,大規模言語モデルの高速化
- Authors: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のない特別なトークン(セパレータ)は、意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグイン・アンド・プレイのフレームワークである。
- 参考スコア(独自算出の注目度): 65.62084602011596
- License:
- Abstract: Large Language Models (LLMs) have exhibited exceptional performance across a spectrum of natural language processing tasks. However, their substantial sizes pose considerable challenges, particularly in computational demands and inference speed, due to their quadratic complexity. In this work, we have identified a key pattern: certain seemingly meaningless special tokens (i.e., separators) contribute disproportionately to attention scores compared to semantically meaningful tokens. This observation suggests that information of the segments between these separator tokens can be effectively condensed into the separator tokens themselves without significant information loss. Guided by this insight, we introduce SepLLM, a plug-and-play framework that accelerates inference by compressing these segments and eliminating redundant tokens. Additionally, we implement efficient kernels for training acceleration. Experimental results across training-free, training-from-scratch, and post-training settings demonstrate SepLLM's effectiveness. Notably, using the Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in streaming settings, SepLLM effectively processes sequences of up to 4 million tokens or more while maintaining consistent language modeling capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
しかし、その実質的なサイズは、特に計算要求と推論速度において、その二次的な複雑さのためにかなりの困難を生じさせる。
本研究では,ある意味意味のない特別なトークン(セパレータ)が意味的に意味のあるトークンと比較して注意点に不均等に寄与する,という重要なパターンを特定した。
この観察から,これらのセパレータトークン間のセグメントに関する情報は,重要な情報損失を伴わずに,セパレータトークン自体に効果的に凝縮できることが示唆された。
この知見に導かれたSepLLMは,これらのセグメントを圧縮して冗長トークンを排除して推論を高速化するプラグイン・アンド・プレイフレームワークである。
さらに,高速化のための効率的なカーネルを実装した。
トレーニング不要,スクラッチからのトレーニング,トレーニング後設定による実験結果から,SepLLMの有効性が確認された。
特に、SepLLMはLlama-3-8Bのバックボーンを使用して、GSM8K-CoTベンチマークで50%以上のKVキャッシュを削減し、同等のパフォーマンスを維持している。
さらに、ストリーミング設定では、SepLLMは、一貫性のある言語モデリング機能を維持しながら、400万以上のトークンのシーケンスを効果的に処理します。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。