論文の概要: LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning
- arxiv url: http://arxiv.org/abs/2501.09767v1
- Date: Wed, 15 Jan 2025 05:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:52.595592
- Title: LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning
- Title(参考訳): LeMo: モレコンテキストファインチューニングのためのLess Token機能の導入
- Authors: Tuowei Wang, Xingyu Chen, Kun Li, Ting Cao, Ju Ren, Yaoxue Zhang,
- Abstract要約: LeMoはLLMファインチューニングシステムで、長いコンテキストシナリオに固有の新しいトークンレベルのスペーサ性メカニズムを利用する。
LeMoは最大1.93倍のメモリ消費を削減し、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れている。
- 参考スコア(独自算出の注目度): 38.35238373706948
- License:
- Abstract: The escalating demand for long-context applications has intensified the necessity of extending the LLM context windows. Despite recent fine-tuning approaches successfully expanding context lengths, their high memory footprints, especially for activations, present a critical practical limitation. Current parameter-efficient fine-tuning methods prioritize reducing parameter update overhead over addressing activation memory constraints. Similarly, existing sparsity mechanisms improve computational efficiency but overlook activation memory optimization due to the phenomenon of Shadowy Activation. In this paper, we propose LeMo, the first LLM fine-tuning system that explores and exploits a new token-level sparsity mechanism inherent in long-context scenarios, termed Contextual Token Sparsity. LeMo minimizes redundant token involvement by assessing the informativeness of token embeddings while preserving model accuracy. Specifically, LeMo introduces three key techniques: (1) Token Elimination, dynamically identifying and excluding redundant tokens across varying inputs and layers. (2) Pattern Prediction, utilizing well-trained predictors to approximate token sparsity patterns with minimal overhead. (3) Kernel Optimization, employing permutation-free and segment-based strategies to boost system performance. We implement LeMo as an end-to-end fine-tuning system compatible with various LLM architectures and other optimization techniques. Comprehensive evaluations demonstrate that LeMo reduces memory consumption by up to 1.93x and achieves up to 1.36x speedups, outperforming state-of-the-art fine-tuning systems.
- Abstract(参考訳): 長期的コンテキストアプリケーションに対する需要の増大は、LLMコンテキストウィンドウを拡張する必要性を増している。
近年の微調整アプローチはコンテキスト長の増大に成功しているが、特にアクティベーションのためのメモリフットプリントの増大は、重要な実用的限界を示している。
現在のパラメータ効率の微調整手法は、アクティベーションメモリ制約に対処する際のパラメータ更新オーバーヘッドを減らすことを優先している。
同様に、既存のスパーシティ機構は計算効率を向上するが、シャドウディアクティベーションの現象によるメモリ最適化は見落としている。
本稿では,LLMファインチューニングシステムLeMoを提案する。このシステムでは,コンテキスト・トークン・スペシャリティ(Contextual Token Sparsity)と呼ばれる長文シナリオに固有の新しいトークンレベル・スペシャリティ機構を探索し,活用する。
LeMoは、モデルの精度を維持しながら、トークン埋め込みの通知性を評価することで、冗長なトークンの関与を最小限に抑える。
特にLeMoは、(1)トークン除去、動的識別、様々な入力層とレイヤをまたいだ冗長トークンの排除という3つの重要なテクニックを紹介している。
2) トークン間隔パターンを最小限のオーバーヘッドで近似するために, よく訓練された予測器を用いたパターン予測を行う。
(3)カーネル最適化,システム性能向上のための置換フリーおよびセグメントベース戦略を用いたカーネル最適化。
我々はLLMアーキテクチャや他の最適化手法と互換性のあるエンドツーエンドの微調整システムとしてLeMoを実装している。
総合的な評価では、LeMoはメモリ消費を最大1.93倍に減らし、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れていた。
関連論文リスト
- Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management [22.908079935647073]
大規模言語モデル(LLM)は、さまざまな領域で大きな成功を収めていますが、モバイルデバイスにデプロイすることは難しい課題です。
我々は、フラッシュメモリにおけるニューロン配置を最適化することにより、スマートフォン上でのLSM推論を高速化する新しいアプローチであるRippleを提案する。
私たちは、Rippleが最先端と比較して最大5.93倍のI/Oレイテンシ改善を実現していることを実証した。
論文 参考訳(メタデータ) (2024-10-25T03:01:19Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。