論文の概要: Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits
- arxiv url: http://arxiv.org/abs/2512.20578v1
- Date: Tue, 23 Dec 2025 18:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.968154
- Title: Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits
- Title(参考訳): LLMは自己の失敗を予測できるか? : 内部回路による自己認識
- Authors: Amirhosein Ghasemabadi, Di Niu,
- Abstract要約: 大規模言語モデル(LLM)は流動的で複雑な出力を生成するが、しばしば自身の誤りや幻覚を認識できない。
凍結LDMが本質的な自己検証を行うための軽量な自己認識機構であるGnosisを紹介した。
グノーシスは、精度と校正の両面で、強い内部ベースラインと大きな外部判断を一貫して上回る。
- 参考スコア(独自算出の注目度): 17.17286544824839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) generate fluent and complex outputs but often fail to recognize their own mistakes and hallucinations. Existing approaches typically rely on external judges, multi-sample consistency, or text-based self-critique, which incur additional compute or correlate weakly with true correctness. We ask: can LLMs predict their own failures by inspecting internal states during inference? We introduce Gnosis, a lightweight self-awareness mechanism that enables frozen LLMs to perform intrinsic self-verification by decoding signals from hidden states and attention patterns. Gnosis passively observes internal traces, compresses them into fixed-budget descriptors, and predicts correctness with negligible inference cost, adding only ~5M parameters and operating independently of sequence length. Across math reasoning, open-domain question answering, and academic knowledge benchmarks, and over frozen backbones ranging from 1.7B to 20B parameters, Gnosis consistently outperforms strong internal baselines and large external judges in both accuracy and calibration. Moreover, it generalizes zero-shot to partial generations, enabling early detection of failing trajectories and compute-aware control. These results show that reliable correctness cues are intrinsic to generation process and can be extracted efficiently without external supervision.
- Abstract(参考訳): 大規模言語モデル(LLM)は流動的で複雑な出力を生成するが、しばしば自身の誤りや幻覚を認識できない。
既存のアプローチは通常、外部の判断やマルチサンプルの一貫性、テキストベースの自己批判に頼っている。
LLMは推論中に内部状態を検査することで、自身の障害を予測できますか?
隠れ状態や注意パターンからの信号の復号化によって,凍結LDMが本質的な自己検証を行うことのできる,軽量な自己認識機構であるGnosisを紹介する。
グノーシスは内部トレースを受動的に観察し、それらを固定予算記述子に圧縮し、無視可能な推論コストで正しさを予測し、パラメータは5M程度追加し、シーケンス長とは独立に操作する。
数学の推論、オープンドメインの質問応答、学術知識ベンチマーク、および1.7Bから20Bパラメータの凍結したバックボーンは、Gnosisは、精度とキャリブレーションの両方において、強い内部ベースラインと大きな外部判断よりも一貫して優れている。
さらに、ゼロショットを部分的な世代に一般化し、故障した軌道の早期検出とコンピュータ認識制御を可能にする。
これらの結果から、信頼性の高い正当性手がかりは生成過程に固有のものであり、外部の監督なしに効率的に抽出できることが示唆された。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。