論文の概要: Hidden Reliability Risks in Large Language Models: Systematic Identification of Precision-Induced Output Disagreements
- arxiv url: http://arxiv.org/abs/2604.19790v1
- Date: Thu, 02 Apr 2026 03:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.081809
- Title: Hidden Reliability Risks in Large Language Models: Systematic Identification of Precision-Induced Output Disagreements
- Title(参考訳): 大規模言語モデルにおける隠れた信頼性リスク:精度によるアウトプットの系統的同定
- Authors: Yifei Wang, Tianlin Li, Xiaohan Zhang, Xiaoyu Zhang, Wei Ma, Mingfei Cheng, Li Pan,
- Abstract要約: PrecisionDiffは、大規模言語モデルにおける精度誘発行動の不一致を検出するための自動微分テストフレームワークである。
本研究は, 自動精度感度テスト生成を可能にし, 効果的な事前デプロイ評価と, トレーニング時の精度堅牢性の向上を実現する。
- 参考スコア(独自算出の注目度): 41.15158202095155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed under diverse numerical precision configurations, including standard floating-point formats (e.g., bfloat16 and float16) and quantized integer formats (e.g., int16 and int8), to meet efficiency and resource constraints. However, minor inconsistencies between LLMs of different precisions are difficult to detect and are often overlooked by existing evaluation methods. In this paper, we present PrecisionDiff, an automated differential testing framework for systematically detecting precision-induced behavioral disagreements in LLMs. PrecisionDiff generates precision-sensitive test inputs and performs cross-precision comparative analysis to uncover subtle divergences that remain hidden under conventional testing strategies. To demonstrate its practical significance, we instantiate PrecisionDiff on the alignment verification task, where precision-induced disagreements manifest as jailbreak divergence-inputs that are rejected under one precision may produce harmful responses under another. Experimental results show that such behavioral disagreements are widespread across multiple open-source aligned LLMs and precision settings, and that PrecisionDiff significantly outperforms vanilla testing methods in detecting these issues. Our work enables automated precision-sensitive test generation, facilitating effective pre-deployment evaluation and improving precision robustness during training.
- Abstract(参考訳): 大きな言語モデル(LLM)は、標準的な浮動小数点形式(例: bfloat16、float16)や量子化された整数形式(例: int16、int8)など、様々な数値的精度で展開され、効率とリソースの制約を満たす。
しかし、異なる精度のLCM間の微妙な不整合は検出が困難であり、しばしば既存の評価手法によって見落とされがちである。
本稿では,LLMにおける精度誘導行動の不一致を系統的に検出する自動微分テストフレームワークであるPrecisionDiffを提案する。
PrecisionDiffは、精度に敏感なテスト入力を生成し、従来のテスト戦略の下に隠された微妙な発散を明らかにするために、クロス精度比較分析を行う。
その実用的意義を示すために,アライメント検証タスクにおいて,ある精度で拒否されるジェイルブレイク発散インプットとして,精度に起因した不一致が,別の精度で有害な応答を生じる可能性があることを示す。
実験結果から,複数のオープンソース対応LCMや精度設定において,このような動作の不一致が広まっており,PrecisionDiffがバニラ試験法よりも優れた精度で検出できることが示唆された。
本研究は, 自動精度感度テスト生成を可能にし, 効果的な事前デプロイ評価と, トレーニング時の精度堅牢性の向上を実現する。
関連論文リスト
- Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - Reasoning's Razor: Reasoning Improves Accuracy but Can Hurt Recall at Critical Operating Points in Safety and Hallucination Detection [21.190105743961798]
推論は大規模言語モデル(LLM)の中心パラダイムとなっている。
厳密な低偽陽性率体制下での分類タスクの推論に関する最初の体系的研究について述べる。
思考(推論強化)生成は全体的な精度を向上するが、実用に不可欠な低FPRしきい値では性能が低下する。
論文 参考訳(メタデータ) (2025-10-23T23:23:36Z) - Understanding and Mitigating Numerical Sources of Nondeterminism in LLM Inference [31.2331188304598]
評価バッチサイズ、GPUカウント、GPUバージョンなどのシステム構成の変更は、生成されたレスポンスに大きな違いをもたらす可能性がある。
この変数の根本原因は、限定的な数値精度で浮動小数点算術の非連想性に遡る。
そこで我々は16ビットの精度で重みを格納するが、FP32では全ての計算を実行する軽量な推論パイプラインLayerCastを開発した。
論文 参考訳(メタデータ) (2025-06-11T08:23:53Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - Combining Deep Learning and Verification for Precise Object Instance
Detection [13.810783248835186]
我々は,提案した検出を受理するためにパスしなければならない検証テストのセットを開発する。
これらのテストにより、ベース検出器の全体的な精度が向上し、受け入れられたサンプルが正しい可能性が極めて高いことを示す。
これにより、検出器は高精度なシステムで動作することができ、したがってロボット認識システムに使用できる。
論文 参考訳(メタデータ) (2019-12-27T18:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。