論文の概要: Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity
- arxiv url: http://arxiv.org/abs/2603.05168v1
- Date: Thu, 05 Mar 2026 13:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.249113
- Title: Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity
- Title(参考訳): Sparse-BitNet: 1.58bit LLMは半構造空間に自然に親しみやすい
- Authors: Di Zhang, Xun Wu, Shaohan Huang, Yudong Wang, Hanyong Shao, Yingbo Hao, Zewen Chi, Li Dong, Ting Song, Yan Xia, Zhifang Sui, Furu Wei,
- Abstract要約: 我々は1.58ビットビットネットが完全精度モデルよりも自然にN:M空間と互換性があることを示した。
我々は1.58ビット量子化と動的N:Mスペーサー化を併用した統合フレームワークであるSparse-BitNetを提案する。
- 参考スコア(独自算出の注目度): 100.07626315557599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is naturally more compatible with N:M sparsity than full-precision models. To study this effect, we propose Sparse-BitNet, a unified framework that jointly applies 1.58-bit quantization and dynamic N:M sparsification while ensuring stable training for the first time. Across multiple model scales and training regimes (sparse pretraining and dense-to-sparse schedules), 1.58-bit BitNet consistently exhibits smaller performance degradation than full-precision baselines at the same sparsity levels and can tolerate higher structured sparsity before accuracy collapse. Moreover, using our custom sparse tensor core, Sparse-BitNet achieves substantial speedups in both training and inference, reaching up to 1.30X. These results highlight that combining extremely low-bit quantization with semi-structured N:M sparsity is a promising direction for efficient LLMs. Code available at https://github.com/AAzdi/Sparse-BitNet
- Abstract(参考訳): 半構造化N:M空間と低ビット量子化(例えば1.58ビットビットビットネット)は、大規模言語モデル(LLM)の効率を改善するための有望な2つのアプローチである。
本研究では,その相互作用を調査し,実精度モデルよりも1.58ビットビットネットの方が自然にN:M空間に適合していることを示す。
この効果を研究するために,Sparse-BitNetを提案する。これは1.58ビットの量子化と動的N:Mスペーサー化を共同で適用し,初めて安定したトレーニングを確実にする統合フレームワークである。
複数のモデルスケールとトレーニングレギュラー(少ない事前訓練と密集したスケジュール)にわたって、1.58ビットのBitNetは、同一の空間レベルでの完全精度ベースラインよりも連続的にパフォーマンス劣化を示し、精度の崩壊前により高い構造的間隔を許容する。
さらに、当社のカスタムスパーステンソルコアを使用して、Sparse-BitNetはトレーニングと推論の両方で大幅に高速化され、最大1.30倍に達する。
これらの結果は、超低ビット量子化と半構造化N:M空間を結合させることが、効率的なLCMに向けた有望な方向であることを示している。
https://github.com/AAzdi/Sparse-BitNetで利用可能なコード
関連論文リスト
- BitNet Distillation [90.71353956177705]
我々はBitNet Distillation(BitDistill)という,市販のフル精度LCMを1.58ビットの精度で微調整する軽量パイプラインを提案する。
BitDistillは、最小の計算コストで、タスク固有のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-15T18:28:12Z) - BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。
4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-04-16T17:51:43Z) - Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.5759603658299]
我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文 参考訳(メタデータ) (2025-02-17T15:06:28Z) - Physics-Inspired Binary Neural Networks: Interpretable Compression with Theoretical Guarantees [20.854288216118423]
多くの逆問題では、自然に物理と空間を符号化するアルゴリズムアンロールネットワークが認められている。
本研究では,データ駆動型1ビット量子化と単一グローバルスケールを組み合わせたPhysical-Inspired Binary Neural Network (PIBiNN)を提案する。
この設計は、構造零点を利用することにより、重量あたり1ビット未満の圧縮率をもたらす。
論文 参考訳(メタデータ) (2025-02-04T00:53:10Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on
Fine-Grained Group Sparsity [10.89385369643021]
本稿では,モバイル推論アクセラレーションフレームワークであるSparseByteNNを提案する。
30%のスパースMobileNet-v1に対して,SparseByteNNは高密度バージョンで1.27倍,最先端のスパース推論エンジンMNNで1.29倍の高速化を実現し,精度は0.224%低下した。
論文 参考訳(メタデータ) (2023-10-30T13:08:48Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Elastic-Link for Binarized Neural Network [9.83865304744923]
ELモジュールは、その後の畳み込み出力特徴に実値入力特徴を適応的に付加することにより、BNN内の情報フローを豊かにする。
ELは、大規模なImageNetデータセットに挑戦する上で、大幅に改善されている。
ReActNetの統合により、71.9%の精度で新しい最先端結果が得られる。
論文 参考訳(メタデータ) (2021-12-19T13:49:29Z) - FTBNN: Rethinking Non-linearity for 1-bit CNNs and Going Beyond [23.5996182207431]
本稿では,二項化畳み込み過程が,その誤差を最小限に抑えるために線形性を増大させ,BNNの識別能力を損なうことを示す。
我々は、その矛盾を修正するために、適切な非線形モジュールを再検討し、調整することで、最先端のパフォーマンスを実現する強力なベースラインに繋がる。
論文 参考訳(メタデータ) (2020-10-19T08:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。