論文の概要: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback
- arxiv url: http://arxiv.org/abs/2305.14975v1
- Date: Wed, 24 May 2023 10:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:25:16.638301
- Title: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback
- Title(参考訳): キャリブレーションを問う:人間のフィードバックを微調整した言語モデルからキャリブレーションされた信頼スコアを除去するための戦略
- Authors: Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael
Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning
- Abstract要約: 答えの信頼性は、答えが正しい可能性を示しているため、低信頼の予測の場合、より高価な専門家に延期することができる。
適切なプロンプト戦略により、RLHF-LMは、モデルの条件付き確率よりもはるかに優れた確率を言語化し、かなりよく校正された予測を可能にする。
- 参考スコア(独自算出の注目度): 83.25662026993231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A trustworthy real-world prediction system should be well-calibrated; that
is, its confidence in an answer is indicative of the likelihood that the answer
is correct, enabling deferral to a more expensive expert in cases of
low-confidence predictions. While recent studies have shown that unsupervised
pre-training produces large language models (LMs) that are remarkably
well-calibrated, the most widely-used LMs in practice are fine-tuned with
reinforcement learning with human feedback (RLHF-LMs) after the initial
unsupervised pre-training stage, and results are mixed as to whether these
models preserve the well-calibratedness of their ancestors. In this paper, we
conduct a broad evaluation of computationally feasible methods for extracting
confidence scores from LLMs fine-tuned with RLHF. We find that with the right
prompting strategy, RLHF-LMs verbalize probabilities that are much better
calibrated than the model's conditional probabilities, enabling fairly
well-calibrated predictions. Through a combination of prompting strategy and
temperature scaling, we find that we can reduce the expected calibration error
of RLHF-LMs by over 50%.
- Abstract(参考訳): 信頼できる現実の予測システムは、その答えに対する自信は、答えが正しい可能性を示すものであり、低信頼の予測の場合、より高価な専門家に延期することができる。
近年の研究では、教師なし事前学習が極めてよく校正された大きな言語モデル(LM)を生成することが示されているが、実際最も広く使われているLMは、初期教師なし事前学習段階の後に人間からのフィードバックによる強化学習(RLHF-LM)によって微調整され、これらのモデルが祖先の十分な校正性を維持するかどうかが示されている。
本稿では,RLHF を微調整した LLM から信頼性スコアを抽出する計算可能な手法を幅広く評価する。
RLHF-LMは正しいプロンプト戦略により、モデルの条件付き確率よりも格付けのよい確率を言語化し、かなりよく校正された予測を可能にする。
プロンプト戦略と温度スケーリングを組み合わせることで,rlhf-lmsの予測校正誤差を50%以上低減できることがわかった。
関連論文リスト
- Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Few-Shot Recalibration of Language Models [23.829795148520834]
我々は、任意のスライスからラベルのない例をいくつか取り込んだリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。
我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。
実験により、我々の数発の再校正器は既存の校正方法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-27T06:25:40Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Reconfidencing LLMs from the Grouping Loss Perspective [53.46677002840564]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision [13.348376207148789]
大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
本稿では,LLM応答の系統的調整に利用可能なプログラム制御を活用できるフレームワークを提案する。
バイオメディカルおよび一般領域における標準的関係抽出および分類タスクの実験は、提案したリスクスコアが実際のLCM誤差率と高い相関があることを実証している。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。