論文の概要: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback
- arxiv url: http://arxiv.org/abs/2305.14975v2
- Date: Tue, 24 Oct 2023 04:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:32:22.344376
- Title: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback
- Title(参考訳): キャリブレーションを問う:人間のフィードバックを微調整した言語モデルからキャリブレーションされた信頼スコアを除去するための戦略
- Authors: Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael
Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning
- Abstract要約: 信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
- 参考スコア(独自算出の注目度): 91.22679548111127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A trustworthy real-world prediction system should produce well-calibrated
confidence scores; that is, its confidence in an answer should be indicative of
the likelihood that the answer is correct, enabling deferral to an expert in
cases of low-confidence predictions. Recent studies have shown that
unsupervised pre-training produces large language models (LMs) whose
conditional probabilities are remarkably well-calibrated. However, the most
widely-used LMs are fine-tuned with reinforcement learning from human feedback
(RLHF-LMs), and some studies have suggested that RLHF-LMs produce conditional
probabilities that are very poorly calibrated. In light of this perceived
weakness, we conduct a broad evaluation of methods for extracting confidence
scores from RLHF-LMs. For RLHF-LMs such as ChatGPT, GPT-4, and Claude, we find
that verbalized confidences emitted as output tokens are typically
better-calibrated than the model's conditional probabilities on the TriviaQA,
SciQ, and TruthfulQA benchmarks, often reducing the expected calibration error
by a relative 50%.
- Abstract(参考訳): 信頼に値する実世界の予測システムは、十分に調整された信頼度スコアを生成するべきである。つまり、その回答に対する信頼度は、答えが正しい可能性を示すものでなければならない。
近年の研究では、教師なし事前学習が条件付き確率が著しく高い大言語モデル(lms)を生成することが示されている。
しかしながら、最も広く使われているLMは、人間のフィードバック(RLHF-LMs)からの強化学習によって微調整されており、RLHF-LMsが極めて低濃度の条件付き確率を生成することを示唆する研究もある。
この弱さを考慮し,rlhf-lmsから信頼度スコアを抽出する方法の広範な評価を行った。
ChatGPT, GPT-4, Claude などの RLHF-LM に対して,出力トークンとして出力される言語的信頼度は,TriviaQA, SciQ, TruthfulQA ベンチマークにおけるモデルの条件付き確率よりもよく校正され,期待される校正誤差を50%削減する。
関連論文リスト
- Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Few-Shot Recalibration of Language Models [23.829795148520834]
我々は、任意のスライスからラベルのない例をいくつか取り込んだリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。
我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。
実験により、我々の数発の再校正器は既存の校正方法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-27T06:25:40Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。