論文の概要: Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.15799v1
- Date: Tue, 18 Feb 2025 20:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:54.202716
- Title: Investigating the Impact of Quantization Methods on the Safety and Reliability of Large Language Models
- Title(参考訳): 大規模言語モデルの安全性と信頼性に及ぼす量子化法の影響の検討
- Authors: Artyom Kharinaev, Viktor Moskvoretskii, Egor Shvetsov, Kseniia Studenikina, Bykov Mikhail, Evgeny Burnaev,
- Abstract要約: 人間の評価を含む4つのベンチマークを用いて,LLaMAモデルとMistralモデルを用いた4つの最先端量子化手法の評価を行った。
その結果, 最適量子化法は4ビット精度で変化し, ベクトル量子化法は2ビット精度で最高の安全性と信頼性を提供することがわかった。
- 参考スコア(独自算出の注目度): 16.30545036335344
- License:
- Abstract: Large Language Models (LLMs) have emerged as powerful tools for addressing modern challenges and enabling practical applications. However, their computational expense remains a significant barrier to widespread adoption. Quantization has emerged as a promising technique to democratize access and enable low resource device deployment. Despite these advancements, the safety and trustworthiness of quantized models remain underexplored, as prior studies often overlook contemporary architectures and rely on overly simplistic benchmarks and evaluations. To address this gap, we introduce OpenSafetyMini, a novel open-ended safety dataset designed to better distinguish between models. We evaluate 4 state-of-the-art quantization techniques across LLaMA and Mistral models using 4 benchmarks, including human evaluations. Our findings reveal that the optimal quantization method varies for 4-bit precision, while vector quantization techniques deliver the best safety and trustworthiness performance at 2-bit precision, providing foundation for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代の課題に対処し、実用的なアプリケーションを実現するための強力なツールとして登場した。
しかし、その計算費用は広く普及する上で重要な障壁である。
量子化は、アクセスを民主化し、リソースの少ないデバイスデプロイメントを可能にする、有望な技術として登場した。
これらの進歩にもかかわらず、量子化モデルの安全性と信頼性は未解明のままであり、先行研究はしばしば現代のアーキテクチャを見落とし、過度に単純化されたベンチマークと評価に依存している。
このギャップに対処するために、モデルをよりよく区別するために設計された、オープンな安全データセットであるOpenSafetyMiniを紹介します。
人間の評価を含む4つのベンチマークを用いて,LLaMAモデルとMistralモデルを用いた4つの最先端量子化手法の評価を行った。
その結果, 最適量子化法は4ビット精度で変化し, ベクトル量子化法は2ビット精度で最高の安全性と信頼性を実現し, 今後の研究の基盤となることが明らかとなった。
関連論文リスト
- On the Adversarial Robustness of Instruction-Tuned Large Language Models for Code [4.286327408435937]
厳密なメトリクスと確立されたベンチマークを用いて、多様な入力課題が生成されたコードの機能と正確性に与える影響を評価する。
オープンソースモデルは入力摂動に対する感受性が増大し、機能的正しさは12%から34%にまで低下した。
対照的に、商用モデルは比較的高いレジリエンスを示し、性能劣化は3%から24%である。
論文 参考訳(メタデータ) (2024-11-29T07:00:47Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Reliability in Semantic Segmentation: Are We on the Right Track? [15.0189654919665]
我々は、古いResNetベースのアーキテクチャから新しいトランスフォーマーまで、さまざまなモデルを分析します。
近年のモデルでは, 信頼性は著しく高いが, 不確実性評価の点では, 全体として信頼性は高くない。
これは、ロバストネスと不確実性推定の両方に焦点を当てた現代のセグメンテーションモデルに関する最初の研究である。
論文 参考訳(メタデータ) (2023-03-20T17:38:24Z) - Leveraging Industry 4.0 -- Deep Learning, Surrogate Model and Transfer
Learning with Uncertainty Quantification Incorporated into Digital Twin for
Nuclear System [2.530807828621263]
IoT(Internet of Things)と機械学習(ML)の出現により、サロゲートモデリングの概念はさらに有効になった。
この章は、代理モデリング、トランスファーラーニング、IoT、デジタルツインという概念の概要から始まる。
その後、デジタルツインに関連付けられた代理モデルに対する不確実性、不確実性定量化フレームワーク、および不確実性定量化手法の詳細について概説する。
論文 参考訳(メタデータ) (2022-09-30T20:19:04Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。