Fugu-MT 論文翻訳(概要): LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning

論文の概要: LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning

arxiv url: http://arxiv.org/abs/2501.09767v1
Date: Wed, 15 Jan 2025 05:17:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 17:59:09.568192
Title: LeMo: Enabling LEss Token Involvement for MOre Context Fine-tuning
Title（参考訳）: LeMo: モレコンテキストファインチューニングのためのLess Token機能の導入
Authors: Tuowei Wang, Xingyu Chen, Kun Li, Ting Cao, Ju Ren, Yaoxue Zhang,
Abstract要約: LeMoはLLMファインチューニングシステムで、長いコンテキストシナリオに固有の新しいトークンレベルのスペーサ性メカニズムを利用する。 LeMoは最大1.93倍のメモリ消費を削減し、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れている。
参考スコア（独自算出の注目度）: 38.35238373706948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The escalating demand for long-context applications has intensified the necessity of extending the LLM context windows. Despite recent fine-tuning approaches successfully expanding context lengths, their high memory footprints, especially for activations, present a critical practical limitation. Current parameter-efficient fine-tuning methods prioritize reducing parameter update overhead over addressing activation memory constraints. Similarly, existing sparsity mechanisms improve computational efficiency but overlook activation memory optimization due to the phenomenon of Shadowy Activation. In this paper, we propose LeMo, the first LLM fine-tuning system that explores and exploits a new token-level sparsity mechanism inherent in long-context scenarios, termed Contextual Token Sparsity. LeMo minimizes redundant token involvement by assessing the informativeness of token embeddings while preserving model accuracy. Specifically, LeMo introduces three key techniques: (1) Token Elimination, dynamically identifying and excluding redundant tokens across varying inputs and layers. (2) Pattern Prediction, utilizing well-trained predictors to approximate token sparsity patterns with minimal overhead. (3) Kernel Optimization, employing permutation-free and segment-based strategies to boost system performance. We implement LeMo as an end-to-end fine-tuning system compatible with various LLM architectures and other optimization techniques. Comprehensive evaluations demonstrate that LeMo reduces memory consumption by up to 1.93x and achieves up to 1.36x speedups, outperforming state-of-the-art fine-tuning systems.
Abstract（参考訳）: 長期的コンテキストアプリケーションに対する需要の増大は、LLMコンテキストウィンドウを拡張する必要性を増している。近年の微調整アプローチはコンテキスト長の増大に成功しているが、特にアクティベーションのためのメモリフットプリントの増大は、重要な実用的限界を示している。現在のパラメータ効率の微調整手法は、アクティベーションメモリ制約に対処する際のパラメータ更新オーバーヘッドを減らすことを優先している。同様に、既存のスパーシティ機構は計算効率を向上するが、シャドウディアクティベーションの現象によるメモリ最適化は見落としている。本稿では,LLMファインチューニングシステムLeMoを提案する。このシステムでは,コンテキスト・トークン・スペシャリティ(Contextual Token Sparsity)と呼ばれる長文シナリオに固有の新しいトークンレベル・スペシャリティ機構を探索し,活用する。 LeMoは、モデルの精度を維持しながら、トークン埋め込みの通知性を評価することで、冗長なトークンの関与を最小限に抑える。特にLeMoは、(1)トークン除去、動的識別、様々な入力層とレイヤをまたいだ冗長トークンの排除という3つの重要なテクニックを紹介している。 2) トークン間隔パターンを最小限のオーバーヘッドで近似するために, よく訓練された予測器を用いたパターン予測を行う。 (3)カーネル最適化,システム性能向上のための置換フリーおよびセグメントベース戦略を用いたカーネル最適化。我々はLLMアーキテクチャや他の最適化手法と互換性のあるエンドツーエンドの微調整システムとしてLeMoを実装している。総合的な評価では、LeMoはメモリ消費を最大1.93倍に減らし、最大1.36倍のスピードアップを実現し、最先端の微調整システムより優れていた。

関連論文リスト

PlanMoGPT: Flow-Enhanced Progressive Planning for Text to Motion Synthesis [40.338618060111116]
PlanMoGPTは、プログレッシブプランニングとフロー強化された微細な動きトークン化を統合したLLMベースのフレームワークである。最先端のパフォーマンスを実現し、FIDスコアを63.8%向上させる(0.380から0.141)。提案したフレームワークは、現在の非LLMアプローチを悩ませる多様性と品質のトレードオフをうまく解決する。
論文参考訳（メタデータ） (2025-06-22T06:24:53Z)
SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling [16.742839354514512]
我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
論文参考訳（メタデータ） (2025-06-04T17:26:31Z)
Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-23T13:54:53Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。重要なFFN成分の主記憶容量の約50%の削減と計算精度の低下を無視できる精度で達成する。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management [22.908079935647073]
大規模言語モデル(LLM)は、さまざまな領域で大きな成功を収めていますが、モバイルデバイスにデプロイすることは難しい課題です。我々は、フラッシュメモリにおけるニューロン配置を最適化することにより、スマートフォン上でのLSM推論を高速化する新しいアプローチであるRippleを提案する。私たちは、Rippleが最先端と比較して最大5.93倍のI/Oレイテンシ改善を実現していることを実証した。
論文参考訳（メタデータ） (2024-10-25T03:01:19Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文参考訳（メタデータ） (2023-09-08T10:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。