論文の概要: InternalInspector $I^2$: Robust Confidence Estimation in LLMs through Internal States
- arxiv url: http://arxiv.org/abs/2406.12053v1
- Date: Mon, 17 Jun 2024 19:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:57:20.020594
- Title: InternalInspector $I^2$: Robust Confidence Estimation in LLMs through Internal States
- Title(参考訳): 内部インスペクタ$I^2$:内部状態によるLLMのロバスト信頼度推定
- Authors: Mohammad Beigi, Ying Shen, Runing Yang, Zihao Lin, Qifan Wang, Ankith Mohan, Jianfeng He, Ming Jin, Chang-Tien Lu, Lifu Huang,
- Abstract要約: InternalInspectorは,Large Language Models(LLMs)における信頼性評価を強化するためのフレームワークである
最終的なアクティベーション状態に主にフォーカスする既存の方法とは異なり、InternalInspectorはすべてのレイヤの内部状態を網羅的に分析し、正しい予測プロセスと間違った予測プロセスの両方を正確に識別する。
- 参考スコア(独自算出の注目度): 44.78029091831383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their vast capabilities, Large Language Models (LLMs) often struggle with generating reliable outputs, frequently producing high-confidence inaccuracies known as hallucinations. Addressing this challenge, our research introduces InternalInspector, a novel framework designed to enhance confidence estimation in LLMs by leveraging contrastive learning on internal states including attention states, feed-forward states, and activation states of all layers. Unlike existing methods that primarily focus on the final activation state, InternalInspector conducts a comprehensive analysis across all internal states of every layer to accurately identify both correct and incorrect prediction processes. By benchmarking InternalInspector against existing confidence estimation methods across various natural language understanding and generation tasks, including factual question answering, commonsense reasoning, and reading comprehension, InternalInspector achieves significantly higher accuracy in aligning the estimated confidence scores with the correctness of the LLM's predictions and lower calibration error. Furthermore, InternalInspector excels at HaluEval, a hallucination detection benchmark, outperforming other internal-based confidence estimation methods in this task.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その膨大な能力にもかかわらず、信頼できる出力を生成するのにしばしば苦労し、幻覚として知られる高信頼の不正確さをしばしば生み出す。
この課題に対処するため,本研究では,すべてのレイヤの注意状態,フィードフォワード状態,アクティベーション状態を含む内部状態に対するコントラスト学習を活用することで,LCMにおける信頼度推定を向上する新しいフレームワークであるInternalInspectorを紹介した。
最終的なアクティベーション状態に主にフォーカスする既存の方法とは異なり、InternalInspectorはすべてのレイヤの内部状態を網羅的に分析し、正しい予測プロセスと間違った予測プロセスの両方を正確に識別する。
事実質問応答,コモンセンス推論,読解理解など,さまざまな自然言語理解・生成タスクにおける既存の信頼度推定手法に対して,内部検査器をベンチマークすることにより,推定された信頼度スコアをLLMの予測の正しさと低いキャリブレーション誤差の正しさとを一致させる精度を著しく向上させる。
さらに、幻覚検出ベンチマークであるHaluEvalでは、内部インスペクタが優れており、このタスクにおける他の内部信頼度推定方法よりも優れている。
関連論文リスト
- Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、チェーン・オブ・ソート(CoT)プロンプトのようなテクニックによって支援された印象的な機能を示している。
内部表現のレンズによるLLMにおけるCoT推論について検討する。
内部整合性の高い高重み付け推論経路によるCoT推論の校正手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。