Fugu-MT 論文翻訳(概要): Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback

論文の概要: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback

arxiv url: http://arxiv.org/abs/2305.14975v1
Date: Wed, 24 May 2023 10:12:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:25:16.638301
Title: Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback
Title（参考訳）: キャリブレーションを問う:人間のフィードバックを微調整した言語モデルからキャリブレーションされた信頼スコアを除去するための戦略
Authors: Katherine Tian, Eric Mitchell, Allan Zhou, Archit Sharma, Rafael Rafailov, Huaxiu Yao, Chelsea Finn, Christopher D. Manning
Abstract要約: 答えの信頼性は、答えが正しい可能性を示しているため、低信頼の予測の場合、より高価な専門家に延期することができる。適切なプロンプト戦略により、RLHF-LMは、モデルの条件付き確率よりもはるかに優れた確率を言語化し、かなりよく校正された予測を可能にする。
参考スコア（独自算出の注目度）: 83.25662026993231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A trustworthy real-world prediction system should be well-calibrated; that is, its confidence in an answer is indicative of the likelihood that the answer is correct, enabling deferral to a more expensive expert in cases of low-confidence predictions. While recent studies have shown that unsupervised pre-training produces large language models (LMs) that are remarkably well-calibrated, the most widely-used LMs in practice are fine-tuned with reinforcement learning with human feedback (RLHF-LMs) after the initial unsupervised pre-training stage, and results are mixed as to whether these models preserve the well-calibratedness of their ancestors. In this paper, we conduct a broad evaluation of computationally feasible methods for extracting confidence scores from LLMs fine-tuned with RLHF. We find that with the right prompting strategy, RLHF-LMs verbalize probabilities that are much better calibrated than the model's conditional probabilities, enabling fairly well-calibrated predictions. Through a combination of prompting strategy and temperature scaling, we find that we can reduce the expected calibration error of RLHF-LMs by over 50%.
Abstract（参考訳）: 信頼できる現実の予測システムは、その答えに対する自信は、答えが正しい可能性を示すものであり、低信頼の予測の場合、より高価な専門家に延期することができる。近年の研究では、教師なし事前学習が極めてよく校正された大きな言語モデル(LM)を生成することが示されているが、実際最も広く使われているLMは、初期教師なし事前学習段階の後に人間からのフィードバックによる強化学習(RLHF-LM)によって微調整され、これらのモデルが祖先の十分な校正性を維持するかどうかが示されている。本稿では,RLHF を微調整した LLM から信頼性スコアを抽出する計算可能な手法を幅広く評価する。 RLHF-LMは正しいプロンプト戦略により、モデルの条件付き確率よりも格付けのよい確率を言語化し、かなりよく校正された予測を可能にする。プロンプト戦略と温度スケーリングを組み合わせることで,rlhf-lmsの予測校正誤差を50%以上低減できることがわかった。

関連論文リスト

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文参考訳（メタデータ） (2025-07-22T17:56:01Z)
Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文参考訳（メタデータ） (2025-06-04T08:56:24Z)
Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics [20.28986622627476]
よく校正されたモデル信頼スコアは、テキスト生成モデルの有用性を向上させることができる。生成に適したタスク非依存の信頼性指標を提案する。
論文参考訳（メタデータ） (2025-05-31T17:01:45Z)
Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator [20.597317601065605]
ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。 PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
論文参考訳（メタデータ） (2025-05-22T13:55:39Z)
Rewarding Doubt: A Reinforcement Learning Approach to Confidence Calibration of Large Language Models [34.59785123314865]
LLM(Large Language Models)の安全かつ信頼性の高い使用には、その回答に対する信頼性の正確な表現が必要である。本稿では,LLMキャリブレーションのためのReinforcement Learning (RL) アプローチを提案する。
論文参考訳（メタデータ） (2025-03-04T13:48:50Z)
Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。 9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文参考訳（メタデータ） (2025-02-16T07:46:09Z)
The Reliability Paradox: Exploring How Shortcut Learning Undermines Language Model Calibration [5.616884466478886]
プレトレーニング言語モデル(PLM)は、自然言語処理の分野で大きなパフォーマンス向上を実現している。近年の研究では、PLMは誤校正に悩まされており、これらのモデルによる信頼度推定の精度の欠如が示唆されている。本稿では,低校正誤差が言語モデルの信頼性決定ルールを意味するか否かを考察する。
論文参考訳（メタデータ） (2024-12-17T08:04:28Z)
Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2024-11-03T20:36:44Z)
Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T09:31:03Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。 LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文参考訳（メタデータ） (2024-05-31T17:16:38Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Few-Shot Recalibration of Language Models [23.829795148520834]
我々は、任意のスライスからラベルのない例をいくつか取り込んだリカレーションモデルをトレーニングし、信頼度スコアをそのスライスに対してより正確なものに再マップする曲線を予測する。我々の訓練されたモデルは、そのスライスからラベル付きデータを使わずに、任意の新しいスライスのために再調整できる。実験により、我々の数発の再校正器は既存の校正方法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-27T06:25:40Z)
Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文参考訳（メタデータ） (2024-03-09T17:46:24Z)
Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文参考訳（メタデータ） (2024-03-05T11:44:14Z)
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。 2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文参考訳（メタデータ） (2023-11-15T11:27:44Z)
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文参考訳（メタデータ） (2023-08-30T17:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。