論文の概要: Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs
- arxiv url: http://arxiv.org/abs/2604.25931v1
- Date: Thu, 02 Apr 2026 02:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.229548
- Title: Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs
- Title(参考訳): アンコレッド・コラボレーション: 部分的証拠を非単調に増幅し, LLMにおける信頼の幻覚を増幅する
- Authors: Ashish Balkishan Lathkar,
- Abstract要約: 大型言語モデルの既知特性を同定する。
完全な証拠が取り除かれる前に、自信と怒りの度合いを増す。
パラメトリック幻覚信頼(Parametric Hallucination Confidence,PHC)としてコミットし、6行のエビデンスで確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a previously unknown calibration property of large language models: providing one confirmed intermediate fact toward a multi-step reasoning chain increases the model's confident-wrong-answer rate before full evidence eliminates it. We call this anchored confabulation: a partial anchor commits the model to confident parametric completion of remaining reasoning steps. We formalize it as Parametric Hallucination Confidence (PHC) and establish it across six lines of evidence including a causal injection experiment (PHC 0.613 to 0.656 to 0.595 to 0.536, N=160) and capability scaling across five model families (Spearman rho=0.900, p=0.037). The Anchoring Threshold Law k*(n)=floor(n/3) predicts PHC amplification by hop depth with four confirmed predictions. Applied to RAG routing, a LearnedRouter exploiting PHC closes 81.1% of the oracle performance gap (macro F1=0.426, p<1e-6) on 1,800 queries across four benchmarks with no model fine-tuning and 50x fewer labels than prior RL-based work. An epistemic humility prompt reduces the PHC spike by -0.118; explicit self-rating (PHC=0.684, p<0.001) outperforms lexical confidence as a routing signal.
- Abstract(参考訳): 多段階推論チェーンに対して確認された中間事実1つを提供することで、完全な証拠が排除される前に、モデルの自信-怒り-回答率を増大させる。
部分的なアンカーは、残りの推論ステップのパラメトリックな完了を確信するようにモデルをコミットします。
われわれはこれをParametric Hallucination Confidence (PHC) として定式化し, 因果注入実験 (PHC 0.613 to 0.656 to 0.595 to 0.536, N=160) と5種類のモデルファミリー(Spearman rho=0.900, p=0.037) を含む6行のエビデンス(PHC 0.613 to 0.656 to 0.595 to 0.536, N=160)で定式化する。
The Anchoring Threshold Law k*(n)=floor(n/3) predicts PHC amplification by hop depth with four confirmed predictions。
RAGルーティングに適用すると、LeartedRouterがPHCを利用すると、4つのベンチマークにまたがる1,800のクエリにおけるオラクルのパフォーマンスギャップ(macro F1=0.426, p<1e-6)の81.1%を閉じる。
てんかんの謙虚さは、PHCのスパイクを-0.118減少させ、明示的な自己上昇(PHC=0.684, p<0.001)は経路信号として語彙的信頼を上回る。
関連論文リスト
- Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models [2.064612766965483]
我々は,MedGemma 4BITの分布MIMIC CXRと外分布PadChest chest X ray データセットの5つの不確実性定量化手法を示し,LLaVA RAD7Bのクロスアーキテクチャ検証を行った。
うまく校正された単一モデル法では、一方のフォワードパスからの予測エントロピーは、メドジェマのAUROC 0.711、LLaVARAD p 10 4の0.878、信頼できないと敏感な予測の両方を1つのエントロピーしきい値でフラグ付けることができる。
論文 参考訳(メタデータ) (2026-04-10T04:18:47Z) - How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning [46.294745464571456]
LongCat-Flash-Proverはエージェントツール統合推論のためのオープンソースのMoEモデルである。
これは、自己形式化と定理証明の両方において、オープンウェイトモデルのための新しい最先端状態を設定する。
MiniF2F-Testのパスレートは97.1%で、72の推論予算しか使用していない。
論文 参考訳(メタデータ) (2026-03-22T05:16:09Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Detecting AI Hallucinations in Finance: An Information-Theoretic Method Cuts Hallucination Rate by 92% [4.693270291878929]
大規模言語モデル(LLMs)は、流動的だがサポートされていない答え、幻覚を生み出す。
ECLIPSEは,モデルの意味エントロピーと利用可能な証拠の容量とのミスマッチとして幻覚を扱うフレームワークである。
論文 参考訳(メタデータ) (2025-12-02T05:25:48Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。