論文の概要: Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs
- arxiv url: http://arxiv.org/abs/2505.17656v2
- Date: Thu, 29 May 2025 06:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.01101
- Title: Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs
- Title(参考訳): 検出に一貫性がすぎる: LLMにおける自己整合誤差の検討
- Authors: Hexiang Tan, Fei Sun, Sha Liu, Du Su, Qi Cao, Xin Chen, Jingang Wang, Xunliang Cai, Yuanzhuo Wang, Huawei Shen, Xueqi Cheng,
- Abstract要約: 本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出メソドは全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測結果から, 単純かつ効果的なクロスモデルプローブ法を提案する。
- 参考スコア(独自算出の注目度): 61.12688072239607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) often generate plausible but incorrect content, error detection has become increasingly critical to ensure truthfulness. However, existing detection methods often overlook a critical problem we term as self-consistent error, where LLMs repeatly generate the same incorrect response across multiple stochastic samples. This work formally defines self-consistent errors and evaluates mainstream detection methods on them. Our investigation reveals two key findings: (1) Unlike inconsistent errors, whose frequency diminishes significantly as LLM scale increases, the frequency of self-consistent errors remains stable or even increases. (2) All four types of detection methshods significantly struggle to detect self-consistent errors. These findings reveal critical limitations in current detection methods and underscore the need for improved methods. Motivated by the observation that self-consistent errors often differ across LLMs, we propose a simple but effective cross-model probe method that fuses hidden state evidence from an external verifier LLM. Our method significantly enhances performance on self-consistent errors across three LLM families.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば可塑性だが誤った内容を生成するため、真偽を確実にするためにエラー検出がますます重要になっている。
しかし,従来の検出手法では,LLMが複数の確率的サンプルに対して同じ誤応答を繰り返し発生させるという,自己整合誤差という重要な問題をしばしば見落としている。
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
1) LLM のスケールが大きくなるにつれて周波数が著しく低下する不整合誤差と異なり, 自己整合誤差の頻度は安定あるいは増大している。
2) 4種類のメソショドは, 自己整合性エラーを検出するのにかなり苦労した。
これらの結果から,現在の検出方法の限界が明らかとなり,改善手法の必要性が浮き彫りになった。
自己整合性誤差がLDM間でしばしば異なるという観測結果から,外部検証LSMから隠れた状態証拠を融合する簡易かつ効果的なクロスモデルプローブ法を提案する。
提案手法は3つのLLMファミリーにおける自己整合誤差の性能を著しく向上させる。
関連論文リスト
- The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.803612556616685]
大規模言語モデル(LLM)における誤り検出の力学解析について述べる。
回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。
この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2025-02-17T13:00:44Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。