論文の概要: Methods to Estimate Large Language Model Confidence
- arxiv url: http://arxiv.org/abs/2312.03733v1
- Date: Tue, 28 Nov 2023 05:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:09:54.086376
- Title: Methods to Estimate Large Language Model Confidence
- Title(参考訳): 大規模言語モデル信頼度推定手法
- Authors: Maia Kotelanski, Robert Gallo, Ashwin Nayak, Thomas Savage
- Abstract要約: 本研究は, 難治性ヴィグネットの診断法を提案する際に, 大規模言語モデルの信頼性を評価する方法を評価するものである。
SC一致頻度は、特に診断において、モデル信頼性の最も有用な指標である。
- 参考スコア(独自算出の注目度): 2.4797200957733576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models have difficulty communicating uncertainty, which is a
significant obstacle to applying LLMs to complex medical tasks. This study
evaluates methods to measure LLM confidence when suggesting a diagnosis for
challenging clinical vignettes. GPT4 was asked a series of challenging case
questions using Chain of Thought and Self Consistency prompting. Multiple
methods were investigated to assess model confidence and evaluated on their
ability to predict the models observed accuracy. The methods evaluated were
Intrinsic Confidence, SC Agreement Frequency and CoT Response Length. SC
Agreement Frequency correlated with observed accuracy, yielding a higher Area
under the Receiver Operating Characteristic Curve compared to Intrinsic
Confidence and CoT Length analysis. SC agreement is the most useful proxy for
model confidence, especially for medical diagnosis. Model Intrinsic Confidence
and CoT Response Length exhibit a weaker ability to differentiate between
correct and incorrect answers, preventing them from being reliable and
interpretable markers for model confidence. We conclude GPT4 has a limited
ability to assess its own diagnostic accuracy. SC Agreement Frequency is the
most useful method to measure GPT4 confidence.
- Abstract(参考訳): 大規模言語モデルは、複雑な医療タスクにLLMを適用する上で重要な障害である不確実性を伝えるのが困難である。
本研究は,難治性クリニカルヴィグネットの診断におけるLCM信頼度測定法について検討した。
GPT4は、Chain of ThoughtとSelf Consistencyのプロンプトを使って、一連の挑戦的なケース質問を受けた。
モデル信頼度を評価するために複数の手法を検討した結果,モデルが観測した精度を予測する能力について評価した。
評価方法は,本質的信頼度,SC一致頻度,CoT応答長であった。
SCコンセンサス周波数は観測精度と相関し, 固有信頼度とCoT長解析と比較すると, 受信器動作特性曲線の下で高い面積が得られる。
SC合意はモデル信頼性,特に診断において最も有用な指標である。
Model Intrinsic ConfidenceとCoT Response Lengthは、正しい回答と間違った回答を区別する弱い能力を示し、モデル信頼性のための信頼性と解釈可能なマーカーになることを防ぐ。
GPT4は診断精度に限界があると結論付けている。
SCアグリーメント周波数はGPT4信頼度を測定する最も有用な方法である。
関連論文リスト
- When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
大規模言語モデル(LLM)は、誤りまたは非意味なテキストを生成する。
信頼を言葉で表現して信頼性を伝える既存の手法は、しばしば失敗する。
我々はconfidence-Quality-ORDerserving alignment approach (CONQORD)を提案する。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - EDUE: Expert Disagreement-Guided One-Pass Uncertainty Estimation for Medical Image Segmentation [1.757276115858037]
本稿では,医用画像分割のためのエキスパート診断誘導不確実性推定(EDUE)を提案する。
複数のラッカーからの接地構文アノテーションの可変性を活用することにより、トレーニング中のモデルをガイドし、ランダムサンプリングに基づく戦略を取り入れ、校正信頼性を高める。
論文 参考訳(メタデータ) (2024-03-25T10:13:52Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Selective Learning: Towards Robust Calibration with Dynamic
Regularization [93.2503677723367]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Inadequacy of common stochastic neural networks for reliable clinical
decision support [0.4262974002462632]
医療意思決定におけるAIの普及は、倫理的および安全性に関する懸念から、いまだに妨げられている。
しかし、一般的なディープラーニングアプローチは、データシフトによる過信傾向にある。
本研究は臨床応用における信頼性について考察する。
論文 参考訳(メタデータ) (2024-01-24T18:49:30Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Learning ULMFiT and Self-Distillation with Calibration for Medical
Dialogue System [2.055949720959582]
近年,最先端のディープラーニングモデルや伝達学習技術の導入は,NLPタスクの性能向上に寄与している。
一部のディープニューラルネットワークはキャリブレーションが不十分であり、不確実性を誤って見積もっている。
本稿では,医用対話システムにおけるULMFiTと自己蒸留の校正モデルについて検討する。
論文 参考訳(メタデータ) (2021-07-20T17:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。