論文の概要: Softmax Probabilities (Mostly) Predict Large Language Model Correctness
on Multiple-Choice Q&A
- arxiv url: http://arxiv.org/abs/2402.13213v1
- Date: Tue, 20 Feb 2024 18:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:52:18.103109
- Title: Softmax Probabilities (Mostly) Predict Large Language Model Correctness
on Multiple-Choice Q&A
- Title(参考訳): マルチコースQ&Aにおけるソフトマックス確率(大域的)予測大言語モデルの正確性
- Authors: Benjamin Plaut, Khanh Nguyen, Tu Trinh
- Abstract要約: 元のQ&Aタスクでよく機能するモデルの中で、我々の仮説の強い証拠を見出す。
本稿では,初期モデル応答のMSPに基づいて,選択的に停止することで,性能の向上を図ったマルチ選択型Q&Aタスクを提案する。
- 参考スコア(独自算出の注目度): 3.0846824529023387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) perform impressively on many tasks,
overconfidence remains a problem. We hypothesized that on multiple-choice Q&A
tasks, wrong answers would be associated with smaller maximum softmax
probabilities (MSPs) compared to correct answers. We comprehensively evaluate
this hypothesis on ten open-source LLMs and five datasets, and find strong
evidence for our hypothesis among models which perform well on the original Q&A
task. For the six LLMs with the best Q&A performance, the AUROC derived from
the MSP was better than random chance with p < 10^{-4} in 59/60 instances.
Among those six LLMs, the average AUROC ranged from 60% to 69%. Leveraging
these findings, we propose a multiple-choice Q&A task with an option to abstain
and show that performance can be improved by selectively abstaining based on
the MSP of the initial model response. We also run the same experiments with
pre-softmax logits instead of softmax probabilities and find similar (but not
identical) results.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクで顕著に機能するが、自信過剰は依然として問題である。
我々は,複数選択Q&Aタスクにおいて,誤答が正解よりも小さい最大ソフトマックス確率(MSP)と関連していると仮定した。
この仮説を10のオープンソースllmと5つのデータセットで包括的に評価し,最初のq&aタスクでうまく機能するモデル間において,仮説の強い証拠を見出す。
最高のQ&A性能を持つ6つのLLMでは、MSPから派生したAUROCは59/60インスタンスでp<10^{-4}のランダムな確率よりも優れていた。
これら6つのLSMのうち、平均的なAUROCは60%から69%であった。
これらの知見を活かし,初期モデル応答のmspに基づいて選択的に停止することにより,性能を向上できることを示すための選択肢を提示するマルチチョースq&aタスクを提案する。
また、softmaxの確率の代わりに、pre-softmax logitsで同じ実験を行い、同様の(しかし同一ではない)結果を見つけました。
関連論文リスト
- Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。