論文の概要: How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering
- arxiv url: http://arxiv.org/abs/2012.00955v2
- Date: Thu, 20 May 2021 09:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:04:51.210839
- Title: How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering
- Title(参考訳): 言語モデルが知っていることをどうやって知るのか?
質問応答のための言語モデルの校正について
- Authors: Zhengbao Jiang, Jun Araki, Haibo Ding, Graham Neubig
- Abstract要約: 言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
- 参考スコア(独自算出の注目度): 80.82194311274694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown that language models (LM) capture different types of
knowledge regarding facts or common sense. However, because no model is
perfect, they still fail to provide appropriate answers in many cases. In this
paper, we ask the question "how can we know when language models know, with
confidence, the answer to a particular query?" We examine this question from
the point of view of calibration, the property of a probabilistic model's
predicted probabilities actually being well correlated with the probabilities
of correctness. We examine three strong generative models -- T5, BART, and
GPT-2 -- and study whether their probabilities on QA tasks are well calibrated,
finding the answer is a relatively emphatic no. We then examine methods to
calibrate such models to make their confidence scores correlate better with the
likelihood of correctness through fine-tuning, post-hoc probability
modification, or adjustment of the predicted outputs or inputs. Experiments on
a diverse range of datasets demonstrate the effectiveness of our methods. We
also perform analysis to study the strengths and limitations of these methods,
shedding light on further improvements that may be made in methods for
calibrating LMs. We have released the code at
https://github.com/jzbjyb/lm-calibration.
- Abstract(参考訳): 近年の研究では、言語モデル(LM)が事実や常識に関する様々な種類の知識を捉えていることが示されている。
しかしながら、モデルが完璧ではないため、多くの場合、適切な回答を提供しない。
本稿では,「言語モデルが,特定のクエリに対する答えを自信を持って知っていれば,どうやって知ることができるのか?
この質問を校正の観点から検討し,確率モデルの予測確率の性質と正の確率との関係について検討した。
我々は、t5、bart、gpt-2という3つの強力な生成モデルを調べ、qaタスクにおけるそれらの確率が十分に調整されているかどうかを調べ、その答えが比較的強調されるnoであることを確認した。
次に,これらのモデルの校正手法について検討し,信頼度スコアと精度の相関を,微調整,ポストホックな確率修正,予測出力や入力の調整などを通じて評価する。
多様なデータセットの実験により,本手法の有効性が示された。
また, これらの手法の強度と限界について解析を行い, LMの校正法におけるさらなる改良点に光を当てる。
私たちはコードをhttps://github.com/jzbjyb/lm-calibrationでリリースした。
関連論文リスト
- LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Teaching Models to Express Their Uncertainty in Words [6.356472059420951]
我々は,GPT-3モデルを用いて,自然言語による解答の不確実性を表現することができることを示す。
モデルが自然言語で自身の答えについて校正された不確実性を表現したのはこれが初めてである。
論文 参考訳(メタデータ) (2022-05-28T05:02:31Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。