論文の概要: Matmul or No Matmal in the Era of 1-bit LLMs
- arxiv url: http://arxiv.org/abs/2408.11939v1
- Date: Wed, 21 Aug 2024 18:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 18:06:47.034412
- Title: Matmul or No Matmal in the Era of 1-bit LLMs
- Title(参考訳): 1ビットLDM時代のマツマルかノーマツマルか
- Authors: Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand Co,
- Abstract要約: 1ビットの大規模言語モデル(LLM)が注目され、新たな研究機会が開かれた。
しかし、1ビット LLM は射影層に極端な量子化を適用することで、少数のモデルを改善するのみである。
本研究では, 1 ビット LLM コンテキストに適した Amdahl's Law の適応について述べる。
- 参考スコア(独自算出の注目度): 0.48212500317840945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of 1-bit large language models (LLMs) has attracted considerable attention and opened up new research opportunities. However, 1-bit LLMs only improve a fraction of models by applying extreme quantization to the projection layers while leaving attention heads unchanged. Therefore, to avoid fundamentally wrong choices of goals in future research, it is crucial to understand the actual improvements in computation and memory usage that 1-bit LLMs can deliver. In this work, we present an adaptation of Amdahl's Law tailored for the 1-bit LLM context, which illustrates how partial improvements in 1-bit LLMs impact overall model performance. Through extensive experiments, we uncover key nuances across different model architectures and hardware configurations, offering a roadmap for future research in the era of 1-bit LLMs.
- Abstract(参考訳): 1ビットの大規模言語モデル(LLM)の出現は注目され、新たな研究機会が開かれた。
しかし、1ビット LLM は射影層に極端に量子化を施し、注意を向けることなく少数のモデルを改善するだけである。
したがって、将来の研究における目標の根本的な誤った選択を避けるためには、1ビットのLLMがもたらす計算とメモリ使用量の実際の改善を理解することが不可欠である。
本研究では,1ビットLLMの文脈に適合したアムダールの法則を適応させ,1ビットLLMの部分的改善がモデル全体の性能に与える影響を示す。
大規模な実験を通じて、異なるモデルアーキテクチャとハードウェア構成にまたがる重要なニュアンスを明らかにし、1ビットLLMの時代における将来の研究のロードマップを提供する。
関連論文リスト
- Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [44.848642930797155]
OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。
本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。
MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
論文 参考訳(メタデータ) (2024-01-29T12:05:02Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。