論文の概要: Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth
- arxiv url: http://arxiv.org/abs/2601.02609v1
- Date: Tue, 06 Jan 2026 00:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.753065
- Title: Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth
- Title(参考訳): 慢性期:LLMファインチューニングのための高性能フレームワーク
- Authors: Arjun S. Nair,
- Abstract要約: Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model fine-tuning is bottlenecked by memory: a 7B parameter model requires 84GB--14GB for weights, 14GB for gradients, and 56GB for FP32 optimizer states--exceeding even A100-40GB capacity. We present Chronicals, an open-source training framework achieving 3.51x speedup over Unsloth through four synergistic optimizations: (1) fused Triton kernels eliminating 75% of memory traffic via RMSNorm (7x), SwiGLU (5x), and QK-RoPE (2.3x) fusion; (2) Cut Cross-Entropy reducing logit memory from 5GB to 135MB through online softmax computation; (3) LoRA+ with theoretically-derived 16x differential learning rates between adapter matrices; and (4) Best-Fit Decreasing sequence packing recovering 60-75% of compute wasted on padding. On Qwen2.5-0.5B with A100-40GB, Chronicals achieves 41,184 tokens/second for full fine-tuning versus Unsloth's 11,736 tokens/second (3.51x). For LoRA at rank 32, we reach 11,699 tokens/second versus Unsloth MAX's 2,857 tokens/second (4.10x). Critically, we discovered that Unsloth's reported 46,000 tokens/second benchmark exhibited zero gradient norms--the model was not training. We provide complete mathematical foundations: online softmax correctness proofs, FlashAttention IO complexity bounds O(N^2 d^2 M^{-1}), LoRA+ learning rate derivations from gradient magnitude analysis, and bin-packing approximation guarantees. All implementations, benchmarks, and proofs are available at https://github.com/Ajwebdevs/Chronicals with pip installation via https://pypi.org/project/chronicals/.
- Abstract(参考訳): 7Bパラメータモデルは84GB-14GBの重量、14GBの勾配、56GBのFP32オプティマイザステートを必要とする。
1) RMSNorm (7x), SwiGLU (5x), QK-RoPE (2.3x) 融合によるメモリトラフィックの75%を除去したトリトンカーネル, (2) オンラインソフトマックス計算によるログメモリを5GBから135MBに削減したクロスエントロピー, (3) 理論的に導出されたアダプタ行列間の16倍の差分学習率を持つLoRA+, (4) 計算処理の60~75%を削減したBest-Fit削減シーケンス。
A100-40GBのQwen2.5-0.5Bでは、Unslothの11,736トークン/秒(3.51x)に対して、完全微調整で41,184トークン/秒を達成した。
ランク32のLoRAでは、Unsloth MAXの2,857トークン/秒(4.10x)に対して11,699トークン/秒に達する。
批判的に、Unslothが報告した46,000トークン/秒のベンチマークでは、勾配ノルムがゼロであることが判明した。
オンラインのソフトマックス精度証明、FlashAttention IO complexity bounds O(N^2 d^2 M^{-1}), LoRA+ Learning rate derivations from gradient magnitude analysis, and bin-packing approximation guarantees。
すべての実装、ベンチマーク、証明は、https://github.com/Ajwebdevs/Chronicalsで入手できる。
関連論文リスト
- Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - RFX: High-Performance Random Forests with GPU Acceleration and QLORA Compression [0.0]
RFX (Random Forests X) は、X が圧縮または量子化の略であり、Python で Breiman と Cutler の Random Forest 分類方法論のプロダクション対応の実装を提供する。
RFX v1.0は完全な分類を提供する:out-of-bagエラー推定、総合的および局所的重要度測定、QLORA圧縮による近接行列、ケースワイズ分析、インタラクティブ可視化(rfviz)。
回帰、教師なし学習、CLIQUEの重要性、RF-GAP近接はv2.0で計画されている。
論文 参考訳(メタデータ) (2025-11-23T12:00:33Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。