Fugu-MT 論文翻訳(概要): Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

論文の概要: Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

arxiv url: http://arxiv.org/abs/2402.13213v2
Date: Fri, 04 Oct 2024 16:29:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 03:41:48.98784
Title: Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A
Title（参考訳）: マルチコースQ&AにおけるチャットLLMの誤校正の可能性
Authors: Benjamin Plaut, Nguyen X. Khanh, Tu Trinh,
Abstract要約: チャット用に微調整された14の大規模言語モデル (LLMs) について検討し、その最大ソフトマックス確率 (MSPs) が多重選択Q&Aにおいて常に誤校正されていることを発見した。この仮説は、基礎となるQ&Aタスクでよく機能するモデルに対して成り立つことを示す。
参考スコア（独自算出の注目度）: 0.6144680854063939
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study 14 large language models (LLMs) fine-tuned for chat and find that their maximum softmax probabilities (MSPs) are consistently miscalibrated on multiple-choice Q&A. However, those MSPs might still encode useful uncertainty information. Specifically, we hypothesized that wrong answers would be associated with smaller MSPs compared to correct answers. Via rigororous statistical testing, we show that this hypothesis holds for models which perform well on the underlying Q&A task. We also find a strong direction correlation between Q&A accuracy and MSP correctness prediction, while finding no correlation between Q&A accuracy and calibration error. This suggests that within the current fine-tuning paradigm, we can expect correctness prediction but not calibration to improve as LLM capabilities progress. To demonstrate the utility of correctness prediction, we show that when models have the option to abstain, performance can be improved by selectively abstaining based on the MSP of the initial model response, using only a small amount of labeled data to choose the MSP threshold.
Abstract（参考訳）: チャット用に微調整された14の大規模言語モデル (LLMs) について検討し、その最大ソフトマックス確率 (MSPs) が多重選択Q&Aにおいて常に誤校正されていることを発見した。しかし、これらのMSPは有用な不確実性情報を符号化する可能性がある。具体的には,誤答は正解よりも小さいMSPに関連していると仮定した。厳密な統計的テストによって、この仮説は基礎となるQ&Aタスクでよく機能するモデルに対して成り立つことを示す。また,Q&A精度とMSP精度の相関が強く,Q&A精度と校正誤差の相関は見つからない。このことは、現在の微調整パラダイムでは、精度予測は期待できるが、LCMの能力が進歩するにつれてキャリブレーションは改善されないことを示唆している。精度予測の有効性を示すため,初期モデル応答の MSP に基づいて,少量のラベル付きデータのみを用いて MSP 閾値を選択することにより,モデルが停止するオプションがある場合,その性能を選択的に抑制できることを示す。

関連論文リスト

Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering [0.0]
大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。 LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
論文参考訳（メタデータ） (2025-03-07T15:22:10Z)
Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T09:31:03Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文参考訳（メタデータ） (2023-02-10T09:42:07Z)
T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文参考訳（メタデータ） (2022-03-03T16:58:54Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)
Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文参考訳（メタデータ） (2020-06-16T19:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。