論文の概要: Softmax Probabilities (Mostly) Predict Large Language Model Correctness
on Multiple-Choice Q&A
- arxiv url: http://arxiv.org/abs/2402.13213v1
- Date: Tue, 20 Feb 2024 18:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:52:18.103109
- Title: Softmax Probabilities (Mostly) Predict Large Language Model Correctness
on Multiple-Choice Q&A
- Title(参考訳): マルチコースQ&Aにおけるソフトマックス確率(大域的)予測大言語モデルの正確性
- Authors: Benjamin Plaut, Khanh Nguyen, Tu Trinh
- Abstract要約: 元のQ&Aタスクでよく機能するモデルの中で、我々の仮説の強い証拠を見出す。
本稿では,初期モデル応答のMSPに基づいて,選択的に停止することで,性能の向上を図ったマルチ選択型Q&Aタスクを提案する。
- 参考スコア(独自算出の注目度): 3.0846824529023387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) perform impressively on many tasks,
overconfidence remains a problem. We hypothesized that on multiple-choice Q&A
tasks, wrong answers would be associated with smaller maximum softmax
probabilities (MSPs) compared to correct answers. We comprehensively evaluate
this hypothesis on ten open-source LLMs and five datasets, and find strong
evidence for our hypothesis among models which perform well on the original Q&A
task. For the six LLMs with the best Q&A performance, the AUROC derived from
the MSP was better than random chance with p < 10^{-4} in 59/60 instances.
Among those six LLMs, the average AUROC ranged from 60% to 69%. Leveraging
these findings, we propose a multiple-choice Q&A task with an option to abstain
and show that performance can be improved by selectively abstaining based on
the MSP of the initial model response. We also run the same experiments with
pre-softmax logits instead of softmax probabilities and find similar (but not
identical) results.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクで顕著に機能するが、自信過剰は依然として問題である。
我々は,複数選択Q&Aタスクにおいて,誤答が正解よりも小さい最大ソフトマックス確率(MSP)と関連していると仮定した。
この仮説を10のオープンソースllmと5つのデータセットで包括的に評価し,最初のq&aタスクでうまく機能するモデル間において,仮説の強い証拠を見出す。
最高のQ&A性能を持つ6つのLLMでは、MSPから派生したAUROCは59/60インスタンスでp<10^{-4}のランダムな確率よりも優れていた。
これら6つのLSMのうち、平均的なAUROCは60%から69%であった。
これらの知見を活かし,初期モデル応答のmspに基づいて選択的に停止することにより,性能を向上できることを示すための選択肢を提示するマルチチョースq&aタスクを提案する。
また、softmaxの確率の代わりに、pre-softmax logitsで同じ実験を行い、同様の(しかし同一ではない)結果を見つけました。
関連論文リスト
- A Study on Large Language Models' Limitations in Multiple-Choice
Question Answering [0.0]
26の小さなオープンソースモデルを分析し、その65%がタスクを理解していないことを発見した。
与えられた選択から解を適切に選ぶのは4つのモデルのみであり、これらのモデルのうち選択順序に依存しないのは5つのモデルのみである。
論文 参考訳(メタデータ) (2024-01-15T20:42:16Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。