Fugu-MT 論文翻訳(概要): Matmul or No Matmal in the Era of 1-bit LLMs

論文の概要: Matmul or No Matmal in the Era of 1-bit LLMs

arxiv url: http://arxiv.org/abs/2408.11939v2
Date: Wed, 28 Aug 2024 19:51:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:25:25.204223
Title: Matmul or No Matmal in the Era of 1-bit LLMs
Title（参考訳）: 1ビットLDM時代のマツマルかノーマツマルか
Authors: Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand,
Abstract要約: 1ビットの大規模言語モデル(LLM)が注目され、新たな研究機会が開かれた。しかし、1ビット LLM は射影層に極端な量子化を適用することで、少数のモデルを改善するのみである。本研究では, 1 ビット LLM コンテキストに適した Amdahl's Law の適応について述べる。
参考スコア（独自算出の注目度）: 0.48212500317840945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of 1-bit large language models (LLMs) has attracted considerable attention and opened up new research opportunities. However, 1-bit LLMs only improve a fraction of models by applying extreme quantization to the projection layers while leaving attention heads unchanged. Therefore, to avoid fundamentally wrong choices of goals in future research, it is crucial to understand the actual improvements in computation and memory usage that 1-bit LLMs can deliver. In this work, we present an adaptation of Amdahl's Law tailored for the 1-bit LLM context, which illustrates how partial improvements in 1-bit LLMs impact overall model performance. Through extensive experiments, we uncover key nuances across different model architectures and hardware configurations, offering a roadmap for future research in the era of 1-bit LLMs.
Abstract（参考訳）: 1ビットの大規模言語モデル(LLM)の出現は注目され、新たな研究機会が開かれた。しかし、1ビット LLM は射影層に極端に量子化を施し、注意を向けることなく少数のモデルを改善するだけである。したがって、将来の研究における目標の根本的な誤った選択を避けるためには、1ビットのLLMがもたらす計算とメモリ使用量の実際の改善を理解することが不可欠である。本研究では,1ビットLLMの文脈に適合したアムダールの法則を適応させ,1ビットLLMの部分的改善がモデル全体の性能に与える影響を示す。大規模な実験を通じて、異なるモデルアーキテクチャとハードウェア構成にまたがる重要なニュアンスを明らかにし、1ビットLLMの時代における将来の研究のロードマップを提供する。

関連論文リスト

LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
LLMs are Also Effective Embedding Models: An In-depth Overview [40.53941563464671]
大規模言語モデル(LLM)は、様々なタスクで最先端のパフォーマンスを達成することによって、自然言語処理に革命をもたらした。近年、埋め込みモデルとしての有効性が注目され、ELMoやBERTのような従来のエンコーダのみのモデルから、GPT、LLaMA、Mistralのようなデコーダのみの大規模LLMへとパラダイムシフトした。
論文参考訳（メタデータ） (2024-12-17T06:48:24Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文参考訳（メタデータ） (2024-02-27T18:56:19Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文参考訳（メタデータ） (2024-02-02T06:29:34Z)
OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models [44.848642930797155]
OpenMoEは、完全にオープンソースで再現可能なデコーダのみのMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)のシリーズである。本研究は,MoEをベースとしたLLMの方が高密度LLMよりも良好なコスト効率のトレードオフを提供できることを確認した。 MoEモデルにおけるルーティング決定は、主にトークンIDに基づいており、最小限のコンテキスト関連性がある。
論文参考訳（メタデータ） (2024-01-29T12:05:02Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。