論文の概要: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
- arxiv url: http://arxiv.org/abs/2402.17764v1
- Date: Tue, 27 Feb 2024 18:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 14:58:48.242384
- Title: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
- Title(参考訳): 1ビットllmの時代:全ての大きな言語モデルは1.58ビット
- Authors: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan
Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
- Abstract要約: 我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
- 参考スコア(独自算出の注目度): 129.6765656933016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research, such as BitNet, is paving the way for a new era of 1-bit
Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant,
namely BitNet b1.58, in which every single parameter (or weight) of the LLM is
ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16)
Transformer LLM with the same model size and training tokens in terms of both
perplexity and end-task performance, while being significantly more
cost-effective in terms of latency, memory, throughput, and energy consumption.
More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for
training new generations of LLMs that are both high-performance and
cost-effective. Furthermore, it enables a new computation paradigm and opens
the door for designing specific hardware optimized for 1-bit LLMs.
- Abstract(参考訳): BitNetのような最近の研究は、1ビットのLarge Language Models (LLMs)の新しい時代への道を歩んでいる。
本研究では,LLMのすべてのパラメータ(あるいは重み)が3次 {-1, 0, 1} となるビットネットb1.58という1ビット LLM 変種を導入する。
これはフル精度 (FP16 または BF16) のトランスフォーマー LLM と同一のモデルサイズとトレーニングトークンをパープレキシティとエンドタスクのパフォーマンスの両方で一致させるが、レイテンシ、メモリ、スループット、エネルギー消費の点ではるかに費用対効果が高い。
より深く言えば、1.58ビットのLSMは、高性能で費用効率のよい新しい世代のLSMを訓練するための新しいスケーリング法則とレシピを定義している。
さらに、新しい計算パラダイムを可能にし、1ビットLLMに最適化された特定のハードウェアを設計するための扉を開く。
関連論文リスト
- MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight
in the Real World for Meeting Summarization? [8.234063663233595]
大規模言語モデル(LLM)は、タスク固有のデータセットを明示的に微調整することなく、幅広いタスクを解決できる印象的な機能を示している。
本研究では,LLM の小型化が,LLM の現実的利用に伴う大きなコストに対処するために,比較的大型の LLMs2 の代替となるかを検討する。
論文 参考訳(メタデータ) (2024-02-01T18:31:34Z) - FlightLLM: Efficient Large Language Model Inference with a Complete
Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。
本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。
FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文 参考訳(メタデータ) (2024-01-08T13:00:53Z) - A Hardware Evaluation Framework for Large Language Model Inference [9.073225245382854]
この研究は、LLM(Large Language Models)のハードウェア評価フレームワークを紹介します。
LLMは高速で正確で汎用的で、様々なハードウェアの設計を記述し評価することができる。
LLMの助けを借りて、この研究はアーキテクチャ上の意味を描き、新しいコスト効率のハードウェア設計を探求する。
論文 参考訳(メタデータ) (2023-12-05T21:01:33Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。