論文の概要: Enhancing Token Filtering Efficiency in Large Language Model Training with Collider
- arxiv url: http://arxiv.org/abs/2502.00340v1
- Date: Sat, 01 Feb 2025 06:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:53.657158
- Title: Enhancing Token Filtering Efficiency in Large Language Model Training with Collider
- Title(参考訳): 衝突型大規模言語モデル学習におけるトークンフィルタリング効率の向上
- Authors: Di Chai, Pengbo Li, Feiyuan Zhang, Yilun Jin, Han Tian, Junxue Zhang, Kai Chen,
- Abstract要約: Colliderは、大規模言語モデル(LLM)トレーニングにおけるトークンフィルタリングの全効率を解放するシステムである。
Colliderのコアとなるのは、すべての層にわたる不連続トークンのアクティベーションをフィルタして、疎性を維持することだ。
疎いGEMMを高密度GEMMに変換して効率を最適化する自動ワークフローを特徴とする。
- 参考スコア(独自算出の注目度): 16.943843510785435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token filtering has been proposed to enhance utility of large language models (LLMs) by eliminating inconsequential tokens during training. While using fewer tokens should reduce computational workloads, existing studies have not succeeded in achieving higher efficiency. This is primarily due to the insufficient sparsity caused by filtering tokens only in the output layers, as well as inefficient sparse GEMM (General Matrix Multiplication), even when having sufficient sparsity. This paper presents Collider, a system unleashing the full efficiency of token filtering in LLM training. At its core, Collider filters activations of inconsequential tokens across all layers to maintain sparsity. Additionally, it features an automatic workflow that transforms sparse GEMM into dimension-reduced dense GEMM for optimized efficiency. Evaluations on three LLMs-TinyLlama-1.1B, Qwen2.5-1.5B, and Phi1.5-1.4B-demonstrate that Collider reduces backpropagation time by up to 35.1% and end-to-end training time by up to 22.0% when filtering 40% of tokens. Utility assessments of training TinyLlama on 15B tokens indicate that Collider sustains the utility advancements of token filtering by relatively improving model utility by 16.3% comparing to regular training, and reduces training time from 4.7 days to 3.5 days using 8 GPUs. Collider is designed for easy integration into existing LLM training frameworks, allowing systems already using token filtering to accelerate training with just one line of code.
- Abstract(参考訳): 大規模言語モデル(LLM)の有用性を高めるため,訓練中に不連続なトークンを除去する手法が提案されている。
トークンの少ない使用は計算負荷を減らすべきであるが、既存の研究は高い効率を達成することに成功していない。
これは主に、出力層のみにトークンをフィルタリングすることによる空白が不足していることと、十分な空白がある場合でも、非効率なスパースGEMM(General Matrix Multiplication)が原因である。
本稿では,LLMトレーニングにおけるトークンフィルタリングの全効率を解放するシステムであるCollindを提案する。
Colliderのコアとなるのは、すべての層にわたる不連続トークンのアクティベーションをフィルタして、疎性を維持することだ。
さらに,疎細なGEMMを高密度GEMMに変換して効率を最適化する自動ワークフローも備えている。
3つのLCM-TinyLlama-1.1B、Qwen2.5-1.5B、Phi1.5-1.4B-demonstrateの評価では、Corriderは、トークンの40%を濾過すると、最大35.1%、エンドツーエンドのトレーニング時間は最大22.0%削減される。
トレーニング用TinyLlamaの15Bトークンに対する実用性評価は、Corriderがモデルユーティリティを16.3%改善し、トークンフィルタリングの実用性を維持していることを示している。
Colliderは既存のLLMトレーニングフレームワークと簡単に統合できるように設計されており、トークンフィルタリングを使用して1行のコードでトレーニングを高速化することができる。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset [33.182239609625505]
精度とデータ量とのトレードオフを改善する方法を示します。
15Tトークンのためにトレーニングされた8Bパラメータモデルで、うち7.2Tは、Llama 3.1 8Bモデルよりも優れている。
論文 参考訳(メタデータ) (2024-12-03T17:28:50Z) - Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration [42.60904284683844]
トークンの削減を3つの段階に分解するフレームワークを提案する。冗長トークンのフィルタリング,破棄された情報を保存トークンに関連付けること,冗長性を最小化するためにトークンを圧縮することである。
FiCoCo は LLaVA-1.5-7B/LLaVA-NeXT-7B で最大 5.7x/14.7x FLOPs の 92.8%/93.6% の性能保持を実現している。
論文 参考訳(メタデータ) (2024-11-26T18:53:51Z) - Discovering the Gems in Early Layers: Accelerating Long-Context LLMs
with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。
本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。
本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-25T23:14:47Z) - Training-Free Activation Sparsity in Large Language Models [32.37595108771431]
アクティベーションのスパーシリティは、大きな言語モデルで実用的な推論スピードアップを可能にする。
既存の手法は普及を妨げる限界に直面している。
本稿では,モデル全体の隠れ状態に対して,等級に基づくアクティベーション間隔を適用したトレーニング不要なTEALについて述べる。
論文 参考訳(メタデータ) (2024-08-26T23:30:15Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。