論文の概要: 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs
- arxiv url: http://arxiv.org/abs/2410.16144v1
- Date: Mon, 21 Oct 2024 16:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:13.916747
- Title: 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs
- Title(参考訳): 1ビットAI赤外線: Part 1.1, Fast and Lossless BitNet b1.58 CPU上の推論
- Authors: Jinheng Wang, Hansong Zhou, Ting Song, Shaoguang Mao, Shuming Ma, Hongyu Wang, Yan Xia, Furu Wei,
- Abstract要約: bitnetは1ビットのLarge Language Modelの可能性を最大限に活用するために設計されたソフトウェアスタックです。
実験では、bitnetはxCPUの2.37xから6.17x、ARMの1.37xから5.07xまでの大幅なスピードアップを実現している。
- 参考スコア(独自算出の注目度): 81.7388752468953
- License:
- Abstract: Recent advances in 1-bit Large Language Models (LLMs), such as BitNet and BitNet b1.58, present a promising approach to enhancing the efficiency of LLMs in terms of speed and energy consumption. These developments also enable local LLM deployment across a broad range of devices. In this work, we introduce bitnet.cpp, a tailored software stack designed to unlock the full potential of 1-bit LLMs. Specifically, we develop a set of kernels to support fast and lossless inference of ternary BitNet b1.58 LLMs on CPUs. Extensive experiments demonstrate that bitnet.cpp achieves significant speedups, ranging from 2.37x to 6.17x on x86 CPUs and from 1.37x to 5.07x on ARM CPUs, across various model sizes. The code is available at https://github.com/microsoft/BitNet.
- Abstract(参考訳): BitNetやBitNet b1.58のような1ビット大規模言語モデル(LLM)の最近の進歩は、速度とエネルギー消費の観点からLCMの効率を高めるための有望なアプローチを示す。
これらの開発により、幅広いデバイスにまたがるローカルなLLMデプロイメントが可能になる。
本稿では,1ビット LLM の潜在能力を最大限に活用するためのソフトウェアスタックである bitnet.cpp を紹介する。
具体的には,3次BitNet b1.58 LLMの高速かつロスレスな推論をサポートするカーネル群をCPU上で開発する。
大規模な実験では、bitnet.cppはx86 CPUで2.37xから6.17x、ARM CPUで1.37xから5.07xまで、様々なモデルサイズで大幅なスピードアップを実現している。
コードはhttps://github.com/microsoft/BitNet.comで入手できる。
関連論文リスト
- BitNet a4.8: 4-bit Activations for 1-bit LLMs [95.73339037243105]
1ビット大言語モデルの4ビットアクティベーションを可能にするBitNet a4.8を導入する。
我々はBitNet a4.8がBitNet b1.58と同等のトレーニングコストでパフォーマンスを実現することを実証した。
論文 参考訳(メタデータ) (2024-11-07T18:41:50Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - BitNet: Scaling 1-bit Transformers for Large Language Models [119.18692348616845]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。
言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2023-10-17T17:59:15Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks [15.519170283930276]
冗長計算とメモリアクセスを同時に削減し,空間的特徴をより効率的に抽出する新しい部分畳み込み(PConv)を提案する。
当社のPConv上に構築された新しいニューラルネットワークファミリーであるFasterNetも提案しています。
当社の大きなFasterNet-Lは、新興のSwin-Bと同等の8,3.5%の精度で、GPU上での推論スループットは36%高い。
論文 参考訳(メタデータ) (2023-03-07T06:05:30Z) - BEANNA: A Binary-Enabled Architecture for Neural Network Acceleration [0.0]
本稿では,浮動小数点層とバイナリネットワーク層の両方を処理可能なニューラルネットワークハードウェアアクセラレータを提案し,評価する。
BEANNAは100MHzのクロック速度で動作し、ピークスループットは52.8ギガOps/秒である。
論文 参考訳(メタデータ) (2021-08-04T23:17:34Z) - MCUNet: Tiny Deep Learning on IoT Devices [62.752899523628066]
効率的なニューラルネットワーク(TinyNAS)と軽量推論エンジン(TinyEngine)を共同で設計するフレームワークを提案する。
TinyNASは、まず検索空間を最適化してリソース制約に適合させ、次に最適化された検索空間におけるネットワークアーキテクチャを専門化する、2段階のニューラルネットワーク検索アプローチを採用している。
TinyEngineは、階層的に最適化するのではなく、全体的なネットワークトポロジに従ってメモリスケジューリングを適応し、メモリ使用量を4.8倍削減する。
論文 参考訳(メタデータ) (2020-07-20T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。