論文の概要: Confident in a Confidence Score: Investigating the Sensitivity of Confidence Scores to Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.08974v1
- Date: Fri, 10 Apr 2026 05:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.699299
- Title: Confident in a Confidence Score: Investigating the Sensitivity of Confidence Scores to Supervised Fine-Tuning
- Title(参考訳): 信頼スコアにおける信頼:信頼スコアの微調整に対する感受性の検討
- Authors: Lorenzo Jaime Yu Flores, Cesare Spinoso di-Piano, Jackie Chi Kit Cheung,
- Abstract要約: 教師付き微調整に対する感度を理解するために,信頼度スコアの基盤となる挙動について検討する。
その結果, 出力品質以外の要因による信頼度の変化に起因する様々な信頼度スコアの相関が低下していることが判明した。
この結果から,信頼性指標がテストなしでは使用できないこと,微調整がより堅牢なメトリクスの開発の必要性が示唆された。
- 参考スコア(独自算出の注目度): 13.193737353434152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncertainty quantification is a set of techniques that measure confidence in language models. They can be used, for example, to detect hallucinations or alert users to review uncertain predictions. To be useful, these confidence scores must be correlated with the quality of the output. However, recent work found that fine-tuning can affect the correlation between confidence scores and quality. Hence, we investigate the underlying behavior of confidence scores to understand its sensitivity to supervised fine-tuning (SFT). We find that post-SFT, the correlation of various confidence scores degrades, which can stem from changes in confidence scores due to factors other than the output quality, such as the output's similarity to the training distribution. We demonstrate via a case study how failing to address this miscorrelation reduces the usefulness of the confidence scores on a downstream task. Our findings show how confidence metrics cannot be used off-the-shelf without testing, and motivate the need for developing metrics which are more robust to fine-tuning.
- Abstract(参考訳): 不確実性定量化(英: Uncertainty Quantification)は、言語モデルにおける信頼度を測定する一連の手法である。
例えば、幻覚を検知したり、ユーザーが不確実な予測をレビューするように警告することができる。
有用にするためには、これらの信頼度スコアは出力の品質と相関しなければならない。
しかし最近の研究では、微調整は信頼性スコアと品質の相関に影響を及ぼすことがわかった。
そこで本研究では,信頼性スコアの基盤となる挙動について検討し,教師付き微調整(SFT)に対する感度について考察した。
その結果,出力品質以外の要因,例えばトレーニング分布と出力の類似性による信頼度の変化から生じる,様々な信頼度スコアの相関が低下していることが判明した。
ケーススタディを通じて、この誤りに対処できないことが、下流タスクにおける信頼度スコアの有用性を低下させることを示す。
この結果から,信頼性指標がテストなしでは使用できないこと,微調整がより堅牢なメトリクスの開発の必要性が示唆された。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - ADVICE: Answer-Dependent Verbalized Confidence Estimation [7.331438721730309]
言語的信頼の基盤となる力学を詳細に分析する。
我々は、回答の独立性を重要な要因とみなし、モデルが自身の回答に自信を持てないことを前提としています。
本稿では,回答基底の信頼度推定を容易にする微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T02:18:33Z) - Calibrating Verbalized Confidence with Self-Generated Distractors [24.56911906044891]
DINCO(Distractor-Normalized Coherence)を紹介する。
DINCOは、LLMの予測可能性バイアスを推定し、いくつかの自己生成障害に対してモデルに独立して信頼性を持たせることによって説明している。
我々は、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することとして、言語化された信頼を正規化したものである。
論文 参考訳(メタデータ) (2025-09-29T21:41:22Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z) - An evaluation of word-level confidence estimation for end-to-end
automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討
4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。
以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文 参考訳(メタデータ) (2021-01-14T09:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。