論文の概要: Enhancing Trustworthiness with Mixed Precision: Benchmarks, Opportunities, and Challenges
- arxiv url: http://arxiv.org/abs/2511.22483v1
- Date: Thu, 27 Nov 2025 14:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.599673
- Title: Enhancing Trustworthiness with Mixed Precision: Benchmarks, Opportunities, and Challenges
- Title(参考訳): 混合精度で信頼性を高める - ベンチマーク、機会、課題
- Authors: Guanxi Lu, Hao Mark Chen, Zhiqiang Que, Wayne Luk, Hongxiang Fan,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
LLMの自己回帰デコーディングプロセスは、既存のAIハードウェアへの効率的なデプロイに重大な課題をもたらす。
- 参考スコア(独自算出の注目度): 12.438306093697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promising performance across various tasks. However, their autoregressive decoding process poses significant challenges for efficient deployment on existing AI hardware. Quantization alleviates memory and compute pressure by compressing weights, activations, and KV caches to low precisions while preserving generation quality. However, existing quantization frameworks typically focus on perplexity or classification accuracy, often omitting critical trustworthiness metrics. This gap introduces risks when applying quantized LLMs to downstream high-stakes domains such as finance and healthcare. In this work, we systematically investigate the impact of quantization on four trustworthiness metrics (adversarial robustness, fairness, machine ethics, and out-of-distribution robustness) and identify the instability across compression ratios and quantization methods. Building on these observations, we develop a novel precision-ensemble voting approach that leverages predictions from mixed-precision variants of the same model and consistently improves performance by up to $5.8\%$ on trustworthiness metrics. Our results highlight the importance of considering trustworthiness when developing model compression techniques and point to research opportunities at the intersection of compression and trustworthiness for safety-critical applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
しかしながら、彼らの自動回帰デコーディングプロセスは、既存のAIハードウェアへの効率的なデプロイに重大な課題をもたらす。
量子化は、重み、アクティベーション、KVキャッシュを低精度に圧縮し、生成品質を保ちながらメモリと計算圧力を緩和する。
しかし、既存の量子化フレームワークは典型的には難易度や分類精度に重点を置いており、しばしば重要な信頼性指標を省略する。
このギャップは、金融や医療といった下流の高い領域に量子化LDMを適用する際のリスクをもたらす。
本研究では, 定量化が4つの信頼性指標(逆ロバスト性, 公正性, 機械倫理, アウト・オブ・ディストリビューション・ロバスト性)に与える影響を系統的に検討し, 圧縮比および量子化法における不安定性を明らかにする。
これらの観測に基づいて,同モデルの混合精度変種からの予測を利用して,信頼度測定値に対して最大5.8 %の精度向上を実現する,新しい精度アンサンブル投票手法を開発した。
本研究は, モデル圧縮技術開発における信頼性の検討の重要性を強調し, 安全クリティカルなアプリケーションにおいて, 信頼性と信頼性を両立させる研究機会を提示するものである。
関連論文リスト
- AQUA-LLM: Evaluating Accuracy, Quantization, and Adversarial Robustness Trade-offs in LLMs for Cybersecurity Question Answering [8.946002046630845]
大規模言語モデル(LLM)は近年,サイバーセキュリティ質問応答(QA)の強力な可能性を示している。
それらの膨大な計算要求は、リソース制約のあるエッジデバイスへの展開に重大な課題をもたらす。
AQUA-LLMは、4つの異なる構成で複数の最先端の小型LCMをベンチマークするために設計された評価フレームワークである。
論文 参考訳(メタデータ) (2025-09-16T20:19:24Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。