論文の概要: Interpreting and Mitigating Unwanted Uncertainty in LLMs
- arxiv url: http://arxiv.org/abs/2510.22866v1
- Date: Sun, 26 Oct 2025 23:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.569302
- Title: Interpreting and Mitigating Unwanted Uncertainty in LLMs
- Title(参考訳): LLMにおける不確かさの解釈と軽減
- Authors: Tiasa Singha Roy, Ayush Rajesh Jhaveri, Ilias Triantafyllopoulos,
- Abstract要約: 大規模言語モデル(LLM)は、前もって正しい回答を間違ったものに変更する。
この行動は信頼を損なうものであり、高い領域で深刻なリスクを引き起こす。
Needle-in-a-Haystack検索フレームワークに適応し、Flipスタイルの再評価プロンプトを統合して、現実的な回答フリッピングシナリオをシミュレートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive capabilities, Large Language Models (LLMs) exhibit unwanted uncertainty, a phenomenon where a model changes a previously correct answer into an incorrect one when re-prompted. This behavior undermines trust and poses serious risks in high-stakes domains. In this work, we investigate the mechanisms that drive this phenomenon. We adapt the Needle-in-a-Haystack retrieval framework and integrate a Flip-style re-evaluation prompt to simulate realistic answer-flipping scenarios. We find that retrieval heads are not primarily responsible for avoiding uncertainty. Instead, we identify a small set of non-retrieval attention heads that disproportionately attend to misleading tokens in uncertain contexts. Masking these heads yields significant improvements, reducing flip behavior by up to 15% without introducing incoherence or overcorrection. However, when tested for downstream tasks, we observe trade-offs with flip behavior. Our findings contribute to the growing field of mechanistic interpretability and present a simple yet effective technique for mitigating uncertainty-driven failure modes in LLMs.
- Abstract(参考訳): その印象的な能力にもかかわらず、LLM(Large Language Models)は不確実性を示す。
この行動は信頼を損なうものであり、高い領域で深刻なリスクを引き起こす。
本研究では,この現象を駆動するメカニズムについて検討する。
Needle-in-a-Haystack検索フレームワークに適応し、Flipスタイルの再評価プロンプトを統合して、現実的な回答フリッピングシナリオをシミュレートする。
検索ヘッドは,不確実性を回避するために主に責任を負わないことがわかった。
代わりに、不確実な文脈で誤解を招くトークンに不均等に出席する少数の非検索注意ヘッドを特定します。
これらの頭部をマスキングすると大きな改善が得られ、不整合や過度な補正を伴わずにフリップ動作を最大15%減少させる。
しかし、下流タスクのテストでは、フリップ動作でトレードオフを観察します。
本研究は, 機械的解釈可能性の増大に寄与し, LLMにおける不確実性駆動型故障を緩和するための簡易かつ効果的な手法を提案する。
関連論文リスト
- Teaching Language Models to Faithfully Express their Uncertainty [8.022069644392786]
大きな言語モデル(LLM)は、しばしば不確実性を誤解する。
本稿では,FUT(Fithful Uncertainity Tuning)を導入し,不確かさを忠実に表現する指導用LLMを指導する。
論文 参考訳(メタデータ) (2025-10-14T14:42:40Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。
そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文 参考訳(メタデータ) (2024-07-01T06:11:30Z) - The Over-Certainty Phenomenon in Modern Test-Time Adaptation Algorithms [8.210473195536077]
本稿では,精度とキャリブレーションに対処する手法を提案する。
提案手法は,予測誤差と負ログ類似度の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-24T19:55:50Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。