Fugu-MT 論文翻訳(概要): Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs

論文の概要: Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs

arxiv url: http://arxiv.org/abs/2505.17656v2
Date: Thu, 29 May 2025 06:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:34.01101
Title: Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs
Title（参考訳）: 検出に一貫性がすぎる: LLMにおける自己整合誤差の検討
Authors: Hexiang Tan, Fei Sun, Sha Liu, Du Su, Qi Cao, Xin Chen, Jingang Wang, Xunliang Cai, Yuanzhuo Wang, Huawei Shen, Xueqi Cheng,
Abstract要約: 本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。 4種類の検出メソドは全て、自己整合性エラーを検出するのにかなり苦労している。自己整合性誤差がLLM間でしばしば異なるという観測結果から, 単純かつ効果的なクロスモデルプローブ法を提案する。
参考スコア（独自算出の注目度）: 61.12688072239607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) often generate plausible but incorrect content, error detection has become increasingly critical to ensure truthfulness. However, existing detection methods often overlook a critical problem we term as self-consistent error, where LLMs repeatly generate the same incorrect response across multiple stochastic samples. This work formally defines self-consistent errors and evaluates mainstream detection methods on them. Our investigation reveals two key findings: (1) Unlike inconsistent errors, whose frequency diminishes significantly as LLM scale increases, the frequency of self-consistent errors remains stable or even increases. (2) All four types of detection methshods significantly struggle to detect self-consistent errors. These findings reveal critical limitations in current detection methods and underscore the need for improved methods. Motivated by the observation that self-consistent errors often differ across LLMs, we propose a simple but effective cross-model probe method that fuses hidden state evidence from an external verifier LLM. Our method significantly enhances performance on self-consistent errors across three LLM families.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば可塑性だが誤った内容を生成するため、真偽を確実にするためにエラー検出がますます重要になっている。しかし,従来の検出手法では,LLMが複数の確率的サンプルに対して同じ誤応答を繰り返し発生させるという,自己整合誤差という重要な問題をしばしば見落としている。本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。 1) LLM のスケールが大きくなるにつれて周波数が著しく低下する不整合誤差と異なり, 自己整合誤差の頻度は安定あるいは増大している。 2) 4種類のメソショドは, 自己整合性エラーを検出するのにかなり苦労した。これらの結果から,現在の検出方法の限界が明らかとなり,改善手法の必要性が浮き彫りになった。自己整合性誤差がLDM間でしばしば異なるという観測結果から,外部検証LSMから隠れた状態証拠を融合する簡易かつ効果的なクロスモデルプローブ法を提案する。提案手法は3つのLLMファミリーにおける自己整合誤差の性能を著しく向上させる。

関連論文リスト

Probabilistic Soundness Guarantees in LLM Reasoning Chains [39.228405100824695]
ARES(Autoregressive Reasoning Entailment Stability)は,従来評価された音場のみに基づいて各クレームを判断することにより,誤りの伝播を防止する新しい確率的フレームワークである。 ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文参考訳（メタデータ） (2025-07-17T09:40:56Z)
Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMs [0.0]
自己補正は大規模言語モデル(LLM)にとって重要な機能である LLMはユーザ入力における誤りを識別できるが、体系的な「自己補正ブラインドスポット」を提示する。 14のモデルをテストすると、平均64.5%の失明率が得られる。注目すべきは、単に"Wait"を追加するだけで盲点が89.3%減少し、その能力は存在するがアクティベーションが必要であることを示唆している。
論文参考訳（メタデータ） (2025-07-03T16:41:30Z)
Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。 MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文参考訳（メタデータ） (2025-03-11T20:53:00Z)
The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.803612556616685]
大規模言語モデル(LLM)における誤り検出の力学解析について述べる。回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文参考訳（メタデータ） (2025-02-17T13:00:44Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文参考訳（メタデータ） (2024-04-04T17:19:47Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)
LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文参考訳（メタデータ） (2023-05-22T17:42:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。