論文の概要: Is (Selective) Round-To-Nearest Quantization All You Need?
- arxiv url: http://arxiv.org/abs/2505.15909v1
- Date: Wed, 21 May 2025 18:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.850309
- Title: Is (Selective) Round-To-Nearest Quantization All You Need?
- Title(参考訳): 必要な量子化は(選択的に)必要か?
- Authors: Alex Kogan,
- Abstract要約: RTN (Round-to-Nearest) はおそらく、Large Language Models (LLM) よりずっと前から存在していた最も単純な量子化技術である。
この研究は、RTNの適用がより安価であるだけでなく、トークン生成スループットがより良くなり、精度がより高度な代替品と類似することを示しながら、この確立された視点を排除することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quantization became a necessary tool for serving ever-increasing Large Language Models (LLMs). RTN (Round-to-Nearest) is perhaps the simplest quantization technique that has been around well before LLMs surged to the forefront of machine learning (ML) research. Yet, it has been largely dismissed by recent and more advanced quantization methods that claim superiority over RTN in nearly every aspect of performance. This work aims to dispel this established point of view, showing that RTN is not only much cheaper to apply, but also its token generation throughput can be better than and accuracy can be similar to more advanced alternatives. In particular, we discuss our implementation of RTN based on the recent Marlin kernels and demonstrate how the accuracy of RTN can be gradually improved by selectively increasing the data precision format of certain model layers and modules. Based on our results, we argue that RTN presents a viable and practical choice for quantizing LLMs.
- Abstract(参考訳): 量子化は、絶え間なく増加するLarge Language Models (LLMs) を提供するために必要なツールとなった。
RTN(Round-to-Nearest)はおそらく、LLMが機械学習(ML)研究の最前線に浮上するずっと前から存在した、最も単純な量子化技術である。
しかし、ほぼ全ての性能面においてRTNよりも優れていると主張する最近の先進的な量子化法により、ほとんど無視されている。
この研究は、RTNの適用がより安価であるだけでなく、トークン生成スループットがより良くなり、精度がより高度な代替品と類似することを示しながら、この確立された視点を排除することを目的としている。
特に,最近のMarlinカーネルをベースとしたRTNの実装について論じ,特定のモデル層やモジュールのデータ精度フォーマットを選択的に増加させることで,RTNの精度を徐々に向上させる方法について述べる。
この結果から,RTN は LLM の定量化に有効かつ実用的な選択であると主張している。
関連論文リスト
- Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。
LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。
我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文 参考訳(メタデータ) (2025-03-03T12:19:12Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity [6.434967516411846]
隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
論文 参考訳(メタデータ) (2023-10-24T15:27:15Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications [23.37992621844846]
ディープニューラルネットワークは、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
NMTの推論時間において遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
提案手法は,NMTで使用するシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す。
論文 参考訳(メタデータ) (2020-10-06T16:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。