論文の概要: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2510.13750v2
- Date: Thu, 16 Oct 2025 13:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.10722
- Title: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
- Title(参考訳): 信頼に基づく応答不確実性:活性化に基づく不確実性推定によるLLM信頼性の向上
- Authors: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni,
- Abstract要約: 本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
- 参考スコア(独自算出の注目度): 7.3923284353934875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
信頼度の推定は、特に金融や医療などの高額な領域において重要であり、誤った回答のコストは、質問に答えないコストよりも高い。
提案手法は,生のフィードフォワードネットワーク(FFN)アクティベーションを自己回帰信号として活用し,投射およびソフトマックス正規化後のトークンロジットや確率に固有の情報損失を回避することによって,事前の不確実性定量化手法を拡張した。
本研究では, 信頼度予測をシーケンス分類タスクとしてモデル化し, ハマー損失項によるトレーニングを規則化し, 騒音に対するロバスト性を向上する。
複雑な知識ベースを持つ現実世界の金融業界のカスタマーサポート設定に適用し,厳密なレイテンシ制約下では高いベースラインを達成し,高い精度を維持する。
Llama 3.1 8Bモデルでの実験では、第16層のみからのアクティベーションを使用すると、応答遅延を低減しながら精度が保たれる。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
関連論文リスト
- Rethinking LLM Parametric Knowledge as Post-retrieval Confidence for Dynamic Retrieval and Reranking [23.1400319714807]
大規模言語モデル(LLM)は、知識の範囲を超えて疑問に直面したとき、しばしば不正確な応答(幻覚)を生成する。
Retrieval-Augmented Generation (RAG)は、外部知識を活用することでこの問題に対処するが、重要な課題は、検索されたコンテキストが特定のクエリに応答する能力を効果的に強化するかどうかである。
この課題は知識境界認識の重要性を浮き彫りにしており、これは現在の手法が個別のラベルや限られた信号障害に適切に対処する方法である。
論文 参考訳(メタデータ) (2025-09-08T09:37:20Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。