論文の概要: Reconfidencing LLMs from the Grouping Loss Perspective
- arxiv url: http://arxiv.org/abs/2402.04957v1
- Date: Wed, 7 Feb 2024 15:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:52:05.001080
- Title: Reconfidencing LLMs from the Grouping Loss Perspective
- Title(参考訳): グループ化損失から見たLCMの再検討
- Authors: Lihu Chen, Alexandre Perez-Lebel, Fabian M. Suchanek, Ga\"el Varoquaux
- Abstract要約: 大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
- 参考スコア(独自算出の注目度): 53.46677002840564
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs), including ChatGPT and LLaMA, are susceptible to
generating hallucinated answers in a confident tone. While efforts to elicit
and calibrate confidence scores have proven useful, recent findings show that
controlling uncertainty must go beyond calibration: predicted scores may
deviate significantly from the actual posterior probabilities due to the impact
of grouping loss. In this work, we construct a new evaluation dataset derived
from a knowledge base to assess confidence scores given to answers of Mistral
and LLaMA. Experiments show that they tend to be overconfident. Further, we
show that they are more overconfident on some answers than others, \emph{eg}
depending on the nationality of the person in the query. In
uncertainty-quantification theory, this is grouping loss. To address this, we
propose a solution to reconfidence LLMs, canceling not only calibration but
also grouping loss. The LLMs, after the reconfidencing process, indicate
improved confidence alignment with the accuracy of their responses.
- Abstract(参考訳): ChatGPTやLLaMAを含むLarge Language Models (LLMs) は、自信のある音調で幻覚的な回答を生じさせる。
信頼性スコアを抽出し、校正する試みは有用であることが証明されているが、近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
本研究では,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築する。
実験の結果、自信過剰になりがちである。
さらに,質問対象者の国籍によっては,他の回答よりも過度に信頼されていることが明らかとなった。
不確実性量子化理論では、これはグループ化損失である。
そこで本稿では, キャリブレーションだけでなく, グループ化損失を解消し, LLMを再構成する手法を提案する。
LLMは、再構成後の応答の精度と信頼性の整合性の向上を示す。
関連論文リスト
- Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [64.14848764079503]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Benchmarking LLMs via Uncertainty Quantification [95.67653501674995]
我々は,Large Language Models (LLM) のための新しいベンチマーク手法を導入する。
本試験では,5つの自然言語処理タスクにまたがる8つのLLMについて検討した。
予測精度と予測不確実性の両方を考慮して,不確実性を考慮した評価指標UAccを導入する。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Self-Contrast: Better Reflection Through Inconsistent Solving
Perspectives [48.17091109203949]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。