論文の概要: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.12137v1
- Date: Tue, 14 Oct 2025 04:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.187935
- Title: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
- Title(参考訳): クレダル変圧器:大規模言語モデルにおける幻覚の定量化と緩和のための原理的アプローチ
- Authors: Shihao Ji, Zihui Song, Jiajie Huang,
- Abstract要約: 大きな言語モデル(LLM)は幻覚を生じさせ、事実的に間違っているが確実なアサーションを生み出します。
本稿では,通常の注意をCAM(Credal Attention Mechanism)に置き換えるCredal Transformerを紹介する。
- 参考スコア(独自算出の注目度): 9.660348625678001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.
- Abstract(参考訳): 大きな言語モデル(LLM)は幻覚を生じさせ、事実的に間違っているが確実なアサーションを生み出します。
これはTransformerのSoftmax関数に起因し,不明瞭な注意点を1つの確率分布に分解し,各層で不確実な情報を破棄することで,"Artificial Certainty"を生成する。
そこで本研究では,通常の注意をCAM(Credal Attention Mechanism)に置き換えるCredal Transformerを提案する。
CAMは単一の注意ベクトルの代わりに「クレダル集合」(分布の集合)を生成し、集合のサイズはモデルの不確実性を直接測定する。
十分な証拠が標準の注意を回復する一方、不十分な証拠は曖昧さを表す拡散分布を生成する。
経験的に、Credal Transformerは配布外入力を識別し、曖昧さを定量化し、不可解な質問に対する信頼できない誤りを吸収することによって著しく低減する。
私たちの貢献は幻覚を緩和するための新しいアーキテクチャであり、不確実な定量化を直接モデルに統合し、より信頼性の高いAIの基礎を提供する設計パラダイムです。
関連論文リスト
- Proximity-Based Evidence Retrieval for Uncertainty-Aware Neural Networks [6.9681910774977815]
本研究は,不確実性を考慮した意思決定のためのエビデンス・検索機構を提案する。
それぞれのテストインスタンスに対して、例題は埋め込み空間で検索され、それらの予測分布はデンプスター・シェーファー理論を介して融合される。
支持する証拠は明確であるため、決定は透明で監査可能である。
論文 参考訳(メタデータ) (2025-09-11T13:12:22Z) - Network Inversion for Generating Confidently Classified Counterfeits [11.599035626374409]
視覚分類において、自信のある予測をもたらす入力を生成することは、モデルの振る舞いと信頼性を理解するための鍵となる。
我々はネットワーク・インバージョン・テクニックを拡張してCCC(Confidently Classified Counterfeits)を生成する。
CCCは信頼性に関するモデル中心の視点を提供し、モデルが完全に合成されたアウト・オブ・ディストリビューション・インプットに高い信頼を割り当てることを明らかにする。
論文 参考訳(メタデータ) (2025-03-26T03:26:49Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - An Analysis of Attention via the Lens of Exchangeability and Latent Variable Models [64.87562101662952]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。