論文の概要: Teaching Models to Express Their Uncertainty in Words
- arxiv url: http://arxiv.org/abs/2205.14334v1
- Date: Sat, 28 May 2022 05:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:26:51.471426
- Title: Teaching Models to Express Their Uncertainty in Words
- Title(参考訳): 単語の不確かさを表現するためのモデル
- Authors: Stephanie Lin, Jacob Hilton, Owain Evans
- Abstract要約: 我々は,GPT-3モデルを用いて,自然言語による解答の不確実性を表現することができることを示す。
モデルが自然言語で自身の答えについて校正された不確実性を表現したのはこれが初めてである。
- 参考スコア(独自算出の注目度): 6.356472059420951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that a GPT-3 model can learn to express uncertainty about its own
answers in natural language -- without use of model logits. When given a
question, the model generates both an answer and a level of confidence (e.g.
"90% confidence" or "high confidence"). These levels map to probabilities that
are well calibrated. The model also remains moderately calibrated under
distribution shift, and is sensitive to uncertainty in its own answers, rather
than imitating human examples. To our knowledge, this is the first time a model
has been shown to express calibrated uncertainty about its own answers in
natural language. For testing calibration, we introduce the CalibratedMath
suite of tasks. We compare the calibration of uncertainty expressed in words
("verbalized probability") to uncertainty extracted from model logits. Both
kinds of uncertainty are capable of generalizing calibration under distribution
shift. We also provide evidence that GPT-3's ability to generalize calibration
depends on pre-trained latent representations that correlate with epistemic
uncertainty over its answers.
- Abstract(参考訳): GPT-3モデルでは,モデルロジットを使わずに,自然言語による解答の不確実性を表現することができることを示す。
質問が与えられると、このモデルは答えと信頼のレベル(例えば「90%信頼」や「高い信頼」)の両方を生成する。
これらのレベルは、よく校正された確率にマップされる。
このモデルは分布シフト下でも適度に調整され、人間の例を模倣するよりも、自身の答えの不確実性に敏感である。
我々の知る限り、モデルが自然言語で自身の解答について校正された不確実性を表現したのはこれが初めてである。
キャリブレーションのテストには、CalibratedMathのタスクスイートを紹介します。
本研究では,モデルロジットから抽出した不確かさと,単語(verbalized probability)で表される不確かさの校正を比較した。
どちらの種類の不確実性も分布シフト下でのキャリブレーションを一般化することができる。
また, GPT-3のキャリブレーションを一般化する能力は, その解答に対する認識の不確実性と相関する事前学習された潜伏表現に依存することを示す。
関連論文リスト
- LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Calibrated Uncertainty Quantification for Operator Learning via
Conformal Prediction [95.75771195913046]
本稿では, リスク制御型量子ニューラル演算子, 分布のない有限サンプル機能キャリブレーション等式予測法を提案する。
関数領域上の点の期待値として定義されるカバレッジ率に関する理論的キャリブレーションを保証する。
2次元ダーシー流と3次元自動車表面圧力予測タスクに関する実験結果から,我々の理論的結果が検証された。
論文 参考訳(メタデータ) (2024-02-02T23:43:28Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Trusting Language Models in Education [1.2578554943276923]
本稿では,BERT 上の XGBoost を用いて補正された確率を出力することを提案する。
我々の仮説は、注意の流れに含まれる不確実性のレベルは、モデルの応答自体の品質に関係している、というものである。
論文 参考訳(メタデータ) (2023-08-07T18:27:54Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z) - Why Calibration Error is Wrong Given Model Uncertainty: Using Posterior
Predictive Checks with Deep Learning [0.0]
キャリブレーション誤差とその変種が、モデルの不確実性によってほとんど常に正しくないことを示す。
このミスがいかにして悪いモデルへの信頼と良いモデルへの信頼につながるかを示します。
論文 参考訳(メタデータ) (2021-12-02T18:26:30Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Calibration of Pre-trained Transformers [55.57083429195445]
本研究ではBERTとRoBERTaに着目し,自然言語推論,パラフレーズ検出,コモンセンス推論という3つのタスクのキャリブレーションを分析した。
その結果,(1) 事前学習モデルを用いてドメイン内キャリブレーションを行う場合, ベースラインと比較して, ドメイン外キャリブレーション誤差が3.5倍も低いこと,(2) ドメイン内キャリブレーション誤差をさらに低減するために温度スケーリングが有効であること,および, ラベルスムーシングを用いて実証的不確実性を意図的に増大させることにより, ドメイン内キャリブレーション後部キャリブレーションを支援すること,などが示されている。
論文 参考訳(メタデータ) (2020-03-17T18:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。