Fugu-MT 論文翻訳(概要): The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

論文の概要: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

arxiv url: http://arxiv.org/abs/2402.17764v1
Date: Tue, 27 Feb 2024 18:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 14:58:48.242384
Title: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Title（参考訳）: 1ビットllmの時代:全ての大きな言語モデルは1.58ビット
Authors: Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
Abstract要約: 我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
参考スコア（独自算出の注目度）: 129.6765656933016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-task performance, while being significantly more cost-effective in terms of latency, memory, throughput, and energy consumption. More profoundly, the 1.58-bit LLM defines a new scaling law and recipe for training new generations of LLMs that are both high-performance and cost-effective. Furthermore, it enables a new computation paradigm and opens the door for designing specific hardware optimized for 1-bit LLMs.
Abstract（参考訳）: BitNetのような最近の研究は、1ビットのLarge Language Models (LLMs)の新しい時代への道を歩んでいる。本研究では,LLMのすべてのパラメータ(あるいは重み)が3次 {-1, 0, 1} となるビットネットb1.58という1ビット LLM 変種を導入する。これはフル精度 (FP16 または BF16) のトランスフォーマー LLM と同一のモデルサイズとトレーニングトークンをパープレキシティとエンドタスクのパフォーマンスの両方で一致させるが、レイテンシ、メモリ、スループット、エネルギー消費の点ではるかに費用対効果が高い。より深く言えば、1.58ビットのLSMは、高性能で費用効率のよい新しい世代のLSMを訓練するための新しいスケーリング法則とレシピを定義している。さらに、新しい計算パラダイムを可能にし、1ビットLLMに最適化された特定のハードウェアを設計するための扉を開く。

関連論文リスト

Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.5759603658299]
我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。 Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文参考訳（メタデータ） (2025-02-17T15:06:28Z)
BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration [7.774285511386959]
大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
論文参考訳（メタデータ） (2024-11-18T17:16:58Z)
Matmul or No Matmal in the Era of 1-bit LLMs [0.48212500317840945]
1ビットの大規模言語モデル(LLM)が注目され、新たな研究機会が開かれた。しかし、1ビット LLM は射影層に極端な量子化を適用することで、少数のモデルを改善するのみである。本研究では, 1 ビット LLM コンテキストに適した Amdahl's Law の適応について述べる。
論文参考訳（メタデータ） (2024-08-21T18:44:21Z)
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文参考訳（メタデータ） (2024-07-15T17:59:29Z)
FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文参考訳（メタデータ） (2024-07-09T17:59:48Z)
Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文参考訳（メタデータ） (2024-06-04T17:50:34Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。