論文の概要: Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation
- arxiv url: http://arxiv.org/abs/2606.05403v1
- Date: Wed, 03 Jun 2026 20:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.380263
- Title: Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation
- Title(参考訳): LLMソースアセスメントにおける先天的な盲点
- Authors: Rohan N. Pradhan, Steve Goley,
- Abstract要約: モデルが生成した統計量を検出する能力を持っているが、マルチソース合成においてこの能力を採用していないことを示す。
具体的には、ソースの影響は、解析テキストの分布レジスタに応答するが、数値の有効性には反応しない方法論登録ゲートによって制御される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models increasingly act as epistemic proxies, synthesizing evidence from multiple sources to inform decisions. Whether they evaluate the quality of that evidence, or merely aggregate it based on surface presentation, remains poorly understood. We show that models possess the capability to detect fabricated statistics (correct identification rates of 0.76-1.00 for methodology in isolation) but do not recruit this capability during multi-source synthesis, producing similar numeric estimates whether the statistics are fabricated or valid. Specifically, source influence is governed by a methodology-register gate that responds to the distributional register of analytical text but not to numeric validity: for example, statistically impossible confidence intervals receive the same weight as valid ones. The behavioral dissociation replicates across five models from three families (Claude, Qwen, OLMo) and three professional domains. Mechanistic analyses, including causal tracing, linear probes, and component-level attribution, converge on the same account: the model encodes and causally uses a methodology-register representation that transfers across domains (probe AUC 0.83-0.92), while numeric-validity signals, decodable in isolation, are suppressed to chance during multi-source synthesis. Prompting-based mitigations, even an oracle checklist naming the exact statistical checks, produce blanket skepticism rather than selective discernment, and the post-training pipelines we examine reinforce the stylistic shortcut without building numeric verification. Unlike sycophancy, which tracks user preference, this failure tracks whether a source presents as analytically credible, not whether its claims are internally consistent. We term this epistemic alignment: like preference and safety alignment, the question is not capability but deployment.
- Abstract(参考訳): 言語モデルは、複数の情報源から証拠を合成し、決定を伝達する。
彼らがその証拠の質を評価するか、単に表面的な提示に基づいてそれを集約するかは、いまだによく分かっていない。
モデルが生成した統計量を検出する能力(分離した方法論の正確な識別率0.76-1.00)を持っているが、マルチソース合成においてこの能力を採用せず、その統計量が作成されているか有効であるかを同様の数値で推定することを示した。
具体的には、ソースの影響は、分析テキストの分布レジスタに応答する方法論登録ゲートによって制御されるが、数値的妥当性には反応しない。
行動解離は3つのファミリー(Claude、Qwen、OLMo)と3つの専門ドメインから5つのモデルにまたがって複製される。
モデルエンコードおよび因果的に、ドメイン間で転送する方法論-登録表現(AUC 0.83-0.92)を使用し、分離して復号可能な数値正準信号は、マルチソース合成において偶然に抑制される。
プロンプトに基づく緩和、さらには正確な統計チェックを命名するオラクルチェックリストさえも、選択的な識別よりも毛布懐疑論を生じさせ、我々は、数値的な検証を構築することなく、スタイリスティックなショートカットを補強する。
ユーザの好みを追跡する薬局とは違って、この障害はソースが内部的に一貫性があるかどうかではなく、分析的に信頼できるかどうかを追跡する。
好みや安全性のアライメントのように、問題は能力ではなくデプロイメントです。
関連論文リスト
- The Digital Twin Counterfactual Framework: A Validation Architecture for Simulated Potential Outcomes [0.0]
Digital Twin Counterfactual Framework (DTCF)
五段階検証アーキテクチャは、シミュレーターが正しい反事実を生成できるという不当な主張を、観測可能なデータに対する偽証可能なテストに変換する。
分解は因果量から極端に検証されるものへと分離する。
共同因果関係の主張は明示的な前提付きとなる。
論文 参考訳(メタデータ) (2026-04-01T19:04:15Z) - When Stability Fails: Hidden Failure Modes Of LLMS in Data-Constrained Scientific Decision-Making [0.0]
大規模言語モデル(LLM)は、データ制約された科学的作業フローにおける意思決定支援ツールとして、ますます使われてきている。
LLM意思決定の4次元を明示的に分離する制御された行動評価フレームワークを提案する。
統計的基盤真理から分岐しながら, LLM がほぼ完全なラン・ツー・ラン安定性を示すことを示す。
論文 参考訳(メタデータ) (2026-03-16T19:17:09Z) - Statistical Inference via Generative Models: Flow Matching and Causal Inference [0.0]
生成AIは目覚ましい経験的な成功を収めてきたが、統計学の観点から見れば、しばしば不透明である。
この本は、フローマッチングを中心的な例として、統計言語における生成AIを再解釈する。
論文 参考訳(メタデータ) (2026-03-09T22:56:02Z) - Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness [30.401369966789915]
Pass@kや他の推論計算のスケーリング方法は、外部検証器を持つドメインにおける言語モデルのパフォーマンスを向上させることができる。
5つのベンチマークとモデルで、驚くべきことに、それは不可能です。
不確実性の下では、モデルは真であることを識別するよりも、モデルアンサンブル内で他のモデルが何を言うかを予測するのが優れていることが分かりました。
論文 参考訳(メタデータ) (2026-02-20T03:35:01Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Causal Discovery via Conditional Independence Testing with Proxy Variables [35.3493980628004]
潜伏した共同設立者のような未観測変数の存在は、条件付き独立テストにバイアスをもたらす可能性がある。
本研究では,連続変数に対する因果関係の存在を効果的に検証できる仮説テスト手法を提案する。
論文 参考訳(メタデータ) (2023-05-09T09:08:39Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。