論文の概要: Enhancing Token Filtering Efficiency in Large Language Model Training with Collider
- arxiv url: http://arxiv.org/abs/2502.00340v1
- Date: Sat, 01 Feb 2025 06:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:47.009415
- Title: Enhancing Token Filtering Efficiency in Large Language Model Training with Collider
- Title(参考訳): 衝突型大規模言語モデル学習におけるトークンフィルタリング効率の向上
- Authors: Di Chai, Pengbo Li, Feiyuan Zhang, Yilun Jin, Han Tian, Junxue Zhang, Kai Chen,
- Abstract要約: Colliderは、大規模言語モデル(LLM)トレーニングにおけるトークンフィルタリングの全効率を解放するシステムである。
Colliderのコアとなるのは、すべての層にわたる不連続トークンのアクティベーションをフィルタして、疎性を維持することだ。
疎いGEMMを高密度GEMMに変換して効率を最適化する自動ワークフローを特徴とする。
- 参考スコア(独自算出の注目度): 16.943843510785435
- License:
- Abstract: Token filtering has been proposed to enhance utility of large language models (LLMs) by eliminating inconsequential tokens during training. While using fewer tokens should reduce computational workloads, existing studies have not succeeded in achieving higher efficiency. This is primarily due to the insufficient sparsity caused by filtering tokens only in the output layers, as well as inefficient sparse GEMM (General Matrix Multiplication), even when having sufficient sparsity. This paper presents Collider, a system unleashing the full efficiency of token filtering in LLM training. At its core, Collider filters activations of inconsequential tokens across all layers to maintain sparsity. Additionally, it features an automatic workflow that transforms sparse GEMM into dimension-reduced dense GEMM for optimized efficiency. Evaluations on three LLMs-TinyLlama-1.1B, Qwen2.5-1.5B, and Phi1.5-1.4B-demonstrate that Collider reduces backpropagation time by up to 35.1% and end-to-end training time by up to 22.0% when filtering 40% of tokens. Utility assessments of training TinyLlama on 15B tokens indicate that Collider sustains the utility advancements of token filtering by relatively improving model utility by 16.3% comparing to regular training, and reduces training time from 4.7 days to 3.5 days using 8 GPUs. Collider is designed for easy integration into existing LLM training frameworks, allowing systems already using token filtering to accelerate training with just one line of code.
- Abstract(参考訳): 大規模言語モデル(LLM)の有用性を高めるため,訓練中に不連続なトークンを除去する手法が提案されている。
トークンの少ない使用は計算負荷を減らすべきであるが、既存の研究は高い効率を達成することに成功していない。
これは主に、出力層のみにトークンをフィルタリングすることによる空白が不足していることと、十分な空白がある場合でも、非効率なスパースGEMM(General Matrix Multiplication)が原因である。
本稿では,LLMトレーニングにおけるトークンフィルタリングの全効率を解放するシステムであるCollindを提案する。
Colliderのコアとなるのは、すべての層にわたる不連続トークンのアクティベーションをフィルタして、疎性を維持することだ。
さらに,疎細なGEMMを高密度GEMMに変換して効率を最適化する自動ワークフローも備えている。
3つのLCM-TinyLlama-1.1B、Qwen2.5-1.5B、Phi1.5-1.4B-demonstrateの評価では、Corriderは、トークンの40%を濾過すると、最大35.1%、エンドツーエンドのトレーニング時間は最大22.0%削減される。
トレーニング用TinyLlamaの15Bトークンに対する実用性評価は、Corriderがモデルユーティリティを16.3%改善し、トークンフィルタリングの実用性を維持していることを示している。
Colliderは既存のLLMトレーニングフレームワークと簡単に統合できるように設計されており、トークンフィルタリングを使用して1行のコードでトレーニングを高速化することができる。
関連論文リスト
- Discovering the Gems in Early Layers: Accelerating Long-Context LLMs
with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。
本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。
本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-25T23:14:47Z) - Training-Free Activation Sparsity in Large Language Models [32.37595108771431]
アクティベーションのスパーシリティは、大きな言語モデルで実用的な推論スピードアップを可能にする。
既存の手法は普及を妨げる限界に直面している。
本稿では,モデル全体の隠れ状態に対して,等級に基づくアクティベーション間隔を適用したトレーニング不要なTEALについて述べる。
論文 参考訳(メタデータ) (2024-08-26T23:30:15Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Random-LTD: Random and Layerwise Token Dropping Brings Efficient
Training for Large-scale Transformers [31.021091635737776]
本稿では,トランスモデルのためのランダムかつ階層的なトークンドロップ手法(ランダムLTD)を提案する。
ランダムLTDは、標準的なトレーニングベースラインと同等のスピードアップと精度を達成する。
この結果から,ランダムLTDは理論計算コストを約33.3%削減し,ウォールクロックのトレーニング時間を25.6%削減できることがわかった。
論文 参考訳(メタデータ) (2022-11-17T23:14:58Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。