Fugu-MT 論文翻訳(概要): LLM-based Affective Text Generation Quality Based on Different Quantization Values

論文の概要: LLM-based Affective Text Generation Quality Based on Different Quantization Values

arxiv url: http://arxiv.org/abs/2501.19317v1
Date: Fri, 31 Jan 2025 17:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 22:46:13.133602
Title: LLM-based Affective Text Generation Quality Based on Different Quantization Values
Title（参考訳）: 異なる量子化値に基づくLLMベースの感情テキスト生成品質
Authors: Yarik Menchaca Resendiz, Roman Klinger,
Abstract要約: 本稿では、異なる量子化値、GPURAM利用率、感情テキスト生成におけるテキスト品質のトレードオフについて論じる。ビットの削減はメモリ節約につながり、76%の削減を実現している。テキストの品質に関しては、より低い量子化レベルの大きなモデルは、一般的により小さく、より高精度なモデルよりも優れている。
参考スコア（独自算出の注目度）: 9.088303226909277
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models exhibit a remarkable capacity in language generation and comprehension. These advances enable AI systems to produce more human-like and emotionally engaging text. However, these models rely on a large number of parameters, requiring significant computational resources for training and inference. In some scenarios, accessing these resources can be challenging (e.g., budget or hardware limitations). Techniques like reducing precision bits can make models more memory-efficient, reducing the computational resources needed, at the cost of reduced accuracy. This paper addresses the trade-off between different quantization values, GPU RAM utilization, and text quality in affective text generation (e.g., "I really enjoy running in the snow-covered forest"). To evaluate, we use an emotion classifier and ten seed prompts to generate affective text. We test three setups of precision bits (8, 16, and 32) across five open-weight language models from two different families. Our findings demonstrate that bit reductions lead to memory savings, achieving a reduction of 76%. However, this optimization comes with a trade-off, leading to a decrease of up to 10 pp in F1 score for larger models and an increase of 10 pp for smaller models, along with roughly double the inference time. In terms of text quality, larger models at lower quantization levels generally outperform smaller, higher-precision models -- while requiring similar memory.
Abstract（参考訳）: 大規模言語モデルは、言語生成と理解において顕著な能力を示す。これらの進歩により、AIシステムはより人間らしく感情的なテキストを生成することができる。しかし、これらのモデルは多数のパラメータに依存しており、トレーニングや推論にかなりの計算資源を必要とする。いくつかのシナリオでは、これらのリソースにアクセスするのは困難である(予算やハードウェアの制限など)。精度ビットの削減のような技術により、モデルはよりメモリ効率が良くなり、必要な計算資源が削減され、精度が低下する。本稿では、異なる量子化値、GPU RAM利用量、感情テキスト生成におけるテキスト品質のトレードオフについて述べる(例:「私は雪に覆われた森で走るのが本当に楽しい」)。評価には感情分類器と10個のシードプロンプトを用いて感情テキストを生成する。 2つの異なる家系の5つのオープンウェイト言語モデルに対して、精度ビット(8, 16, 32)の3つのセットアップをテストする。その結果,ビット削減はメモリ節約に寄与し,76%の削減が達成された。しかし、この最適化にはトレードオフが伴い、より大きなモデルではF1スコアが10ppまで減少し、より小さなモデルでは10ppまで増加し、推論時間はおよそ2倍になる。テキストの品質の面では、低い量子化レベルの大きなモデルは、通常、同様のメモリを必要とする一方で、より小さく、より高精度なモデルよりも優れています。

関連論文リスト

KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。 PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文参考訳（メタデータ） (2025-01-04T15:59:33Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Computational Bottlenecks of Training Small-scale Large Language Models [19.663560481459164]
小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。本研究では,SLMの学習における計算的ボトルネックについて検討する。私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
論文参考訳（メタデータ） (2024-10-25T10:30:21Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error Correction through Low-Rank Adaptation [5.837035655563323]
本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
論文参考訳（メタデータ） (2023-06-13T22:25:35Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks [20.374784902476318]
モデル重み付けにゼロを導入する方法として, モデル精度と計算効率のトレードオフを良好に提供する方法として, プルーニングが有効であることが示されている。現代のプロセッサには、高速なオンチップスクラッチパッドメモリと、間接的に負荷を発生させ、そのようなメモリ上の操作を格納する集/散乱エンジンが備わっている。本研究では,スクラッチパッドメモリと集合/散乱エンジンを利用して,ニューラルネットワークの推論を高速化する,新しいスパースパターン(GSパターン)を提案する。
論文参考訳（メタデータ） (2021-12-20T22:55:45Z)
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。 GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。 GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文参考訳（メタデータ） (2021-12-13T18:58:19Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners [14.264737570114631]
GPT-3に類似した性能は、よりグリーンな言語モデルで得られることを示す。我々は、小さな言語モデルで自然言語理解を成功させるために必要な重要な要素を同定する。
論文参考訳（メタデータ） (2020-09-15T14:18:53Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。