論文の概要: Probabilistic Medical Predictions of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.11316v1
- Date: Wed, 21 Aug 2024 03:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:28:56.261139
- Title: Probabilistic Medical Predictions of Large Language Models
- Title(参考訳): 大規模言語モデルの確率論的医学予測
- Authors: Bowen Gu, Rishi J. Desai, Kueiyu Joshua Lin, Jie Yang,
- Abstract要約: LLM(Large Language Models)は、迅速な工学を通して臨床応用に有意な可能性を証明している。
LLMの数値推論における制限は、これらのテキスト生成確率の信頼性に関する懸念を引き起こす。
5つの医学データセットにまたがる6つの高度なオープンソースLSMを用いて実験したところ、明示的確率の性能は暗黙的確率よりも一貫して低いことがわかった。
- 参考スコア(独自算出の注目度): 4.825666689707888
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential in clinical applications through prompt engineering, which enables the generation of flexible and diverse clinical predictions. However, they pose challenges in producing prediction probabilities, which are essential for transparency and allowing clinicians to apply flexible probability thresholds in decision-making. While explicit prompt instructions can lead LLMs to provide prediction probability numbers through text generation, LLMs' limitations in numerical reasoning raise concerns about the reliability of these text-generated probabilities. To assess this reliability, we compared explicit probabilities derived from text generation to implicit probabilities calculated based on the likelihood of predicting the correct label token. Experimenting with six advanced open-source LLMs across five medical datasets, we found that the performance of explicit probabilities was consistently lower than implicit probabilities with respect to discrimination, precision, and recall. Moreover, these differences were enlarged on small LLMs and imbalanced datasets, emphasizing the need for cautious interpretation and applications, as well as further research into robust probability estimation methods for LLMs in clinical contexts.
- Abstract(参考訳): LLM(Large Language Models)は、フレキシブルで多様な臨床予測を生成するために、迅速な工学を通して臨床応用に有意な可能性を証明している。
しかし、それらは透明性に不可欠であり、臨床医が意思決定に柔軟な確率閾値を適用できるようにする予測確率の生成に挑戦する。
明示的なプロンプト命令は、テキスト生成による予測確率数の提供をLLMに誘導するが、数値推論におけるLSMの制限は、これらのテキスト生成確率の信頼性に関する懸念を引き起こす。
この信頼性を評価するために,テキスト生成から得られた明示的確率と,正しいラベルトークンを予測する確率に基づいて算出した暗黙的確率を比較した。
5つの医学データセットにまたがる6つの高度なオープンソースLSMを用いて実験したところ、明示的確率のパフォーマンスは、識別、精度、リコールに関して暗黙的な確率よりも一貫して低いことがわかった。
さらに、これらの差異は、小さなLCMと不均衡なデータセットで拡大され、慎重な解釈と応用の必要性を強調し、臨床文脈におけるLSMの頑健な確率推定方法の研究が進められた。
関連論文リスト
- Uncertainty Quantification for Clinical Outcome Predictions with (Large) Language Models [10.895429855778747]
ホワイトボックスおよびブラックボックス設定におけるEMHタスクに対するLMの不確実性定量化について検討する。
EHRにおけるマルチタスクとアンサンブル手法を用いることで,モデル不確実性を効果的に低減できることを示す。
6,000名以上の患者から得られた縦断的臨床データを10種類の臨床予測タスクで検証した。
論文 参考訳(メタデータ) (2024-11-05T20:20:15Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。
Clinalytix Medical AIは精度が優れていた。
論文 参考訳(メタデータ) (2024-09-16T11:34:40Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は、そのような正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。