Fugu-MT 論文翻訳(概要): Softmax Probabilities (Mostly) Predict Large Language Model Correctness on Multiple-Choice Q&A

論文の概要: Softmax Probabilities (Mostly) Predict Large Language Model Correctness on Multiple-Choice Q&A

arxiv url: http://arxiv.org/abs/2402.13213v1
Date: Tue, 20 Feb 2024 18:24:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 13:52:18.103109
Title: Softmax Probabilities (Mostly) Predict Large Language Model Correctness on Multiple-Choice Q&A
Title（参考訳）: マルチコースQ&Aにおけるソフトマックス確率(大域的)予測大言語モデルの正確性
Authors: Benjamin Plaut, Khanh Nguyen, Tu Trinh
Abstract要約: 元のQ&Aタスクでよく機能するモデルの中で、我々の仮説の強い証拠を見出す。本稿では,初期モデル応答のMSPに基づいて,選択的に停止することで,性能の向上を図ったマルチ選択型Q&Aタスクを提案する。
参考スコア（独自算出の注目度）: 3.0846824529023387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large language models (LLMs) perform impressively on many tasks, overconfidence remains a problem. We hypothesized that on multiple-choice Q&A tasks, wrong answers would be associated with smaller maximum softmax probabilities (MSPs) compared to correct answers. We comprehensively evaluate this hypothesis on ten open-source LLMs and five datasets, and find strong evidence for our hypothesis among models which perform well on the original Q&A task. For the six LLMs with the best Q&A performance, the AUROC derived from the MSP was better than random chance with p < 10^{-4} in 59/60 instances. Among those six LLMs, the average AUROC ranged from 60% to 69%. Leveraging these findings, we propose a multiple-choice Q&A task with an option to abstain and show that performance can be improved by selectively abstaining based on the MSP of the initial model response. We also run the same experiments with pre-softmax logits instead of softmax probabilities and find similar (but not identical) results.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのタスクで顕著に機能するが、自信過剰は依然として問題である。我々は,複数選択Q&Aタスクにおいて,誤答が正解よりも小さい最大ソフトマックス確率(MSP)と関連していると仮定した。この仮説を10のオープンソースllmと5つのデータセットで包括的に評価し,最初のq&aタスクでうまく機能するモデル間において,仮説の強い証拠を見出す。最高のQ&A性能を持つ6つのLLMでは、MSPから派生したAUROCは59/60インスタンスでp<10^{-4}のランダムな確率よりも優れていた。これら6つのLSMのうち、平均的なAUROCは60%から69%であった。これらの知見を活かし,初期モデル応答のmspに基づいて選択的に停止することにより,性能を向上できることを示すための選択肢を提示するマルチチョースq&aタスクを提案する。また、softmaxの確率の代わりに、pre-softmax logitsで同じ実験を行い、同様の(しかし同一ではない)結果を見つけました。

関連論文リスト

Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering [0.0]
大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。 LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
論文参考訳（メタデータ） (2025-03-07T15:22:10Z)
Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T09:31:03Z)
Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文参考訳（メタデータ） (2023-11-26T22:47:54Z)
Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文参考訳（メタデータ） (2023-02-10T09:42:07Z)
T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文参考訳（メタデータ） (2022-03-03T16:58:54Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)
Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文参考訳（メタデータ） (2020-06-16T19:13:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。