論文の概要: Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks
- arxiv url: http://arxiv.org/abs/2410.14766v1
- Date: Fri, 18 Oct 2024 15:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:32.235642
- Title: Evaluating Quantized Large Language Models for Code Generation on Low-Resource Language Benchmarks
- Title(参考訳): 低リソース言語ベンチマークによるコード生成のための量子化大言語モデルの評価
- Authors: Enkhbold Nyamsuren,
- Abstract要約: 本研究では,Lua符号生成タスクにおける5つの量子化符号LLMの性能を評価する。
その結果, 4ビット整数精度で量子化されたモデルは, 性能とモデルサイズとの最良のトレードオフをもたらすことが示唆された。
量子化は、70億のパラメータを持つ小さなLLMのアクセシビリティを高めるが、これらのLLMは全体的な低性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Democratization of AI is an important topic within the broader topic of the digital divide. This issue is relevant to LLMs, which are becoming popular as AI co-pilots but suffer from a lack of accessibility due to high computational demand. In this study, we evaluate whether quantization is a viable approach toward enabling LLMs on generic consumer devices. The study assesses the performance of five quantized code LLMs in Lua code generation tasks. To evaluate the impact of quantization, the models with 7B parameters were tested on a consumer laptop at 2-, 4-, and 8-bit integer precisions and compared to non-quantized code LLMs with 1.3, 2, and 3 billion parameters. Lua is chosen as a low-level resource language to avoid models' biases related to high-resource languages. The results suggest that the models quantized at the 4-bit integer precision offer the best trade-off between performance and model size. These models can be comfortably deployed on an average laptop without a dedicated GPU. The performance significantly drops at the 2-bit integer precision. The models at 8-bit integer precision require more inference time that does not effectively translate to better performance. The 4-bit models with 7 billion parameters also considerably outperform non-quantized models with lower parameter numbers despite having comparable model sizes with respect to storage and memory demand. While quantization indeed increases the accessibility of smaller LLMs with 7 billion parameters, these LLMs demonstrate overall low performance (less than 50\%) on high-precision and low-resource tasks such as Lua code generation. While accessibility is improved, usability is still not at the practical level comparable to foundational LLMs such as GPT-4o or Llama 3.1 405B.
- Abstract(参考訳): AIの民主化は、デジタルディビジョンの幅広いトピックにおいて重要なトピックである。
この問題は、AIコパイロットとして人気を博しているが、高い計算要求のためにアクセシビリティの欠如に悩まされているLLMに関係している。
本研究では,一般消費者デバイス上でのLCMの実現に向けて,量子化が有効なアプローチであるかどうかを評価する。
本研究は,Luaコード生成タスクにおける5つの量子化符号LLMの性能を評価する。
量子化の影響を評価するため、7Bパラメータを持つモデルは2ビット、4ビット、8ビットの整数精度でコンシューマー・ラップトップ上でテストされ、1.3、2、30億のパラメータを持つ非量子化コードLLMと比較された。
Luaは、高リソース言語に関連するモデルのバイアスを避けるために、低レベルのリソース言語として選択されている。
その結果, 4ビット整数精度で量子化されたモデルは, 性能とモデルサイズとの最良のトレードオフをもたらすことが示唆された。
これらのモデルは、専用のGPUを使わずに、平均的なラップトップに快適にデプロイできる。
性能は2ビットの整数精度で大幅に低下する。
8ビット整数精度のモデルでは、推論時間が長くなり、性能が向上しない。
70億のパラメータを持つ4ビットモデルは、ストレージやメモリ要求に対して同等のモデルサイズを持つにもかかわらず、パラメータ数が低い非量子化モデルよりもかなり優れている。
量子化は70億のパラメータを持つ小さなLSMのアクセシビリティを高めるが、これらのLSMはLuaコード生成のような高精度で低リソースなタスクにおいて、全体的な低性能(50%未満)を示す。
アクセシビリティは改善されているが、GPT-4oやLlama 3.1 405Bのような基本的なLCMに匹敵する実用レベルには達していない。
関連論文リスト
- Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.832907585157638]
本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。
我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。
より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文 参考訳(メタデータ) (2024-05-06T03:42:34Z) - Empirical Studies of Parameter Efficient Methods for Large Language Models of Code and Knowledge Transfer to R [1.9799527196428242]
大きなLangauge Models(LLM)は、ソフトウェア工学(SE)コミュニティで注目を集めています。
本研究は,CodeT5 と CodeLlama 上で,PEFT法,LoRA と Compacter を実証研究する。
自然言語モデルからコードへの知識伝達や、学習した知識を目に見えない言語に適応させる能力について、完全に微調整されたモデルと比較して、それらの性能を評価する。
論文 参考訳(メタデータ) (2024-03-16T03:12:45Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。