論文の概要: Methods to Estimate Large Language Model Confidence
- arxiv url: http://arxiv.org/abs/2312.03733v1
- Date: Tue, 28 Nov 2023 05:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:09:54.086376
- Title: Methods to Estimate Large Language Model Confidence
- Title(参考訳): 大規模言語モデル信頼度推定手法
- Authors: Maia Kotelanski, Robert Gallo, Ashwin Nayak, Thomas Savage
- Abstract要約: 本研究は, 難治性ヴィグネットの診断法を提案する際に, 大規模言語モデルの信頼性を評価する方法を評価するものである。
SC一致頻度は、特に診断において、モデル信頼性の最も有用な指標である。
- 参考スコア(独自算出の注目度): 2.4797200957733576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have difficulty communicating uncertainty, which is a
significant obstacle to applying LLMs to complex medical tasks. This study
evaluates methods to measure LLM confidence when suggesting a diagnosis for
challenging clinical vignettes. GPT4 was asked a series of challenging case
questions using Chain of Thought and Self Consistency prompting. Multiple
methods were investigated to assess model confidence and evaluated on their
ability to predict the models observed accuracy. The methods evaluated were
Intrinsic Confidence, SC Agreement Frequency and CoT Response Length. SC
Agreement Frequency correlated with observed accuracy, yielding a higher Area
under the Receiver Operating Characteristic Curve compared to Intrinsic
Confidence and CoT Length analysis. SC agreement is the most useful proxy for
model confidence, especially for medical diagnosis. Model Intrinsic Confidence
and CoT Response Length exhibit a weaker ability to differentiate between
correct and incorrect answers, preventing them from being reliable and
interpretable markers for model confidence. We conclude GPT4 has a limited
ability to assess its own diagnostic accuracy. SC Agreement Frequency is the
most useful method to measure GPT4 confidence.
- Abstract(参考訳): 大規模言語モデルは、複雑な医療タスクにLLMを適用する上で重要な障害である不確実性を伝えるのが困難である。
本研究は,難治性クリニカルヴィグネットの診断におけるLCM信頼度測定法について検討した。
GPT4は、Chain of ThoughtとSelf Consistencyのプロンプトを使って、一連の挑戦的なケース質問を受けた。
モデル信頼度を評価するために複数の手法を検討した結果,モデルが観測した精度を予測する能力について評価した。
評価方法は,本質的信頼度,SC一致頻度,CoT応答長であった。
SCコンセンサス周波数は観測精度と相関し, 固有信頼度とCoT長解析と比較すると, 受信器動作特性曲線の下で高い面積が得られる。
SC合意はモデル信頼性,特に診断において最も有用な指標である。
Model Intrinsic ConfidenceとCoT Response Lengthは、正しい回答と間違った回答を区別する弱い能力を示し、モデル信頼性のための信頼性と解釈可能なマーカーになることを防ぐ。
GPT4は診断精度に限界があると結論付けている。
SCアグリーメント周波数はGPT4信頼度を測定する最も有用な方法である。
関連論文リスト
- Enhancing Answer Reliability Through Inter-Model Consensus of Large Language Models [1.6874375111244329]
先進モデルを含む革新的な言語モデル相互作用システムの協調力学について検討する。
これらのモデルは、正確な基底的答えを伴わずに、複雑でPhDレベルの統計的疑問を生成し、答える。
本研究では,モデル間のコンセンサスによって応答の信頼性と精度が向上することを示す。
論文 参考訳(メタデータ) (2024-11-25T10:18:17Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,信頼度推定モデルを構築するための新しい手法を提案する。
重み付きグラフを用いて、質問に対する大きな言語モデルの応答の一貫性を表現します。
次に、正しい応答の確率を推定するためにグラフニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Interpretability of Uncertainty: Exploring Cortical Lesion Segmentation in Multiple Sclerosis [33.91263917157504]
不確実性定量化(UQ)は人工知能システムの信頼性を評価する上で重要である。
本研究では,磁気共鳴画像における焦点病変分割のための深層学習モデルにおけるインスタンス単位の不確実性値の解釈可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T09:13:30Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。