論文の概要: Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification
- arxiv url: http://arxiv.org/abs/2605.20193v1
- Date: Sat, 04 Apr 2026 04:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.957505
- Title: Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification
- Title(参考訳): マルチパスプロンプト検証による定性解析における量子化モデルの性能向上
- Authors: Aisvarya Adeseye, Jouni Isoaho, Adeyemi Adeseye,
- Abstract要約: 量子化大言語モデル(LLM)は、高速に動作し、少ない計算資源を必要とするため、定性的分析においてより頻繁に使用される。
本研究では,LLaMA-3.1の質的解析における低ビット量子化レベルの違いが,LLaMA-3.1の性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized Large Language Models (LLMs) are used more often in qualitative analysis because they run fast and need fewer computing resources. This study examines how different lower bits quantization levels (8-bit, 4-bit, 3-bit, and 2-bit) and quantization types affect the performance of LLaMA-3.1 (8B) on qualitative analysis. The study uses expert and non-expert responses from 82 interview transcripts. Low-bit models often produce higher levels of hallucinations and unstable results, especially when reading non-expert language with unclear terms. To improve performance, we propose a quantization-aware multi-pass prompt verification method. This method guides the model through controlled steps that reduce hallucinations. It removes unreliable content and passes the results to the next transcript after verification, improving accuracy. To validate performance, human coders analyzed transcripts using NVivo and BF16 LLaMA. BF16 LLaMA-3.1 produced high-precision output but had semantic drift and hallucination. These errors were corrected manually. The corrected BF16 output and NVivo human coding were combined to create a gold-standard ground truth (GSGT) for thematic extraction and frequency analysis. The results show that 8-bit models stay closest to the GSGT. The 4-bit models lose accuracy but become stable when the proposed method is applied. The 3-bit and 2-bit models drop in performance because of heavy compression, but they improve with the proposed prompt design and verification. The study also finds that models at the same bit level behave differently depending on quantization type. Overall, the method helps low-resource LLMs become more stable, accurate, and suitable for qualitative research at lower cost.
- Abstract(参考訳): 量子化大言語モデル(LLM)は、高速に動作し、少ない計算資源を必要とするため、定性的分析においてより頻繁に使用される。
本研究では,低ビット量子化レベル(8ビット,4ビット,3ビット,2ビット)と量子化タイプの違いが,質的解析におけるLLaMA-3.1(8B)の性能に与える影響について検討した。
この研究は82の面接書からの専門家と非専門家の回答を用いている。
低ビットモデルはしばしば高いレベルの幻覚と不安定な結果をもたらす。
性能向上のために,量子化対応マルチパスプロンプト検証手法を提案する。
この方法は幻覚を減少させる制御ステップを通じてモデルを誘導する。
信頼性の低いコンテンツを削除し、検証後に結果を次の書き起こしに渡すことにより、精度が向上する。
性能を検証するため、人間のコーダーはNVivoとBF16 LLaMAを用いて転写を解析した。
BF16 LLaMA-3.1は高精度な出力が得られたが、セマンティックドリフトと幻覚を持っていた。
これらの誤りは手動で修正された。
修正されたBF16出力とNVivo人間の符号化を組み合わせて、主題抽出と周波数解析のための金標準基底真理(GSGT)を作成した。
その結果、8ビットモデルがGSGTに最も近い状態にあることがわかった。
4ビットモデルでは精度は低下するが,提案手法を適用すると安定となる。
3ビットモデルと2ビットモデルは、重い圧縮のために性能が低下するが、提案されたプロンプト設計と検証により改善される。
この研究はまた、同じビットレベルのモデルが量子化のタイプによって異なる振る舞いをすることを示した。
本手法は,低リソースLCMがより安定で精度が高く,低コストで定性的研究に適している。
関連論文リスト
- K-Quantization and its Impact on Output Performance [1.1458853556386797]
本稿では,様々な量子化レベルにおける8つの大規模言語モデル(LLM)の性能について検討する。
ビット精度が低いと一般的にパフォーマンスが低下するが、その影響はモデルやタスクによって異なる。
論文 参考訳(メタデータ) (2026-05-19T10:31:47Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Quantization for OpenAI's Whisper Models: A Comparative Analysis [0.0]
本稿では、Whisperと、ライブ音声ストリーミングに最適化された2つのモデルと、オフラインで書き起こしに最適化された2つのモデルについて検討する。
より大規模なモデルでは、レイテンシが増加し、リソース制約のあるデバイスへのデプロイが困難になる。
その結果、量子化は19%のレイテンシとモデルサイズを45%削減し、転写精度を保った。
論文 参考訳(メタデータ) (2025-03-12T23:50:35Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant [11.832907585157638]
量子化は、大規模および小規模言語モデルのコスト効率のよいデプロイのための有望なソリューションとして注目を集めている。
1Bから405Bパラメータにまたがる命令調整モデルの総合評価を行い、13のデータセットに対して4つの量子化手法を適用した。
論文 参考訳(メタデータ) (2024-09-17T10:31:37Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。