論文の概要: Methods to Estimate Large Language Model Confidence
- arxiv url: http://arxiv.org/abs/2312.03733v2
- Date: Fri, 8 Dec 2023 07:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:40:47.637828
- Title: Methods to Estimate Large Language Model Confidence
- Title(参考訳): 大規模言語モデル信頼度推定手法
- Authors: Maia Kotelanski, Robert Gallo, Ashwin Nayak, Thomas Savage
- Abstract要約: 本研究は, 難治性ヴィグネットの診断法を提案する際に, 大規模言語モデルの信頼性を評価する方法を評価するものである。
SC一致頻度は、特に診断において、モデル信頼性の最も有用な指標である。
- 参考スコア(独自算出の注目度): 2.4797200957733576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have difficulty communicating uncertainty, which is a
significant obstacle to applying LLMs to complex medical tasks. This study
evaluates methods to measure LLM confidence when suggesting a diagnosis for
challenging clinical vignettes. GPT4 was asked a series of challenging case
questions using Chain of Thought and Self Consistency prompting. Multiple
methods were investigated to assess model confidence and evaluated on their
ability to predict the models observed accuracy. The methods evaluated were
Intrinsic Confidence, SC Agreement Frequency and CoT Response Length. SC
Agreement Frequency correlated with observed accuracy, yielding a higher Area
under the Receiver Operating Characteristic Curve compared to Intrinsic
Confidence and CoT Length analysis. SC agreement is the most useful proxy for
model confidence, especially for medical diagnosis. Model Intrinsic Confidence
and CoT Response Length exhibit a weaker ability to differentiate between
correct and incorrect answers, preventing them from being reliable and
interpretable markers for model confidence. We conclude GPT4 has a limited
ability to assess its own diagnostic accuracy. SC Agreement Frequency is the
most useful method to measure GPT4 confidence.
- Abstract(参考訳): 大規模言語モデルは、複雑な医療タスクにLLMを適用する上で重要な障害である不確実性を伝えるのが困難である。
本研究は,難治性クリニカルヴィグネットの診断におけるLCM信頼度測定法について検討した。
GPT4は、Chain of ThoughtとSelf Consistencyのプロンプトを使って、一連の挑戦的なケース質問を受けた。
モデル信頼度を評価するために複数の手法を検討した結果,モデルが観測した精度を予測する能力について評価した。
評価方法は,本質的信頼度,SC一致頻度,CoT応答長であった。
SCコンセンサス周波数は観測精度と相関し, 固有信頼度とCoT長解析と比較すると, 受信器動作特性曲線の下で高い面積が得られる。
SC合意はモデル信頼性,特に診断において最も有用な指標である。
Model Intrinsic ConfidenceとCoT Response Lengthは、正しい回答と間違った回答を区別する弱い能力を示し、モデル信頼性のための信頼性と解釈可能なマーカーになることを防ぐ。
GPT4は診断精度に限界があると結論付けている。
SCアグリーメント周波数はGPT4信頼度を測定する最も有用な方法である。
関連論文リスト
- Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Interpretability of Uncertainty: Exploring Cortical Lesion Segmentation in Multiple Sclerosis [33.91263917157504]
不確実性定量化(UQ)は人工知能システムの信頼性を評価する上で重要である。
本研究では,磁気共鳴画像における焦点病変分割のための深層学習モデルにおけるインスタンス単位の不確実性値の解釈可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T09:13:30Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。