論文の概要: Probabilistic Medical Predictions of Large Language Models
- arxiv url: http://arxiv.org/abs/2408.11316v2
- Date: Tue, 03 Dec 2024 21:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:14.194649
- Title: Probabilistic Medical Predictions of Large Language Models
- Title(参考訳): 大規模言語モデルの確率論的医学予測
- Authors: Bowen Gu, Rishi J. Desai, Kueiyu Joshua Lin, Jie Yang,
- Abstract要約: LLM(Large Language Models)は、プロンプトエンジニアリングによる臨床応用において有望であることを示す。
LLMは、透明性と意思決定に不可欠である信頼性の高い予測確率を生み出すのに苦労している。
テキスト生成からの明示的確率と、正しいラベルトークンを予測する可能性から得られた暗黙的確率を比較した。
- 参考スコア(独自算出の注目度): 4.825666689707888
- License:
- Abstract: Large Language Models (LLMs) have shown promise in clinical applications through prompt engineering, allowing flexible clinical predictions. However, they struggle to produce reliable prediction probabilities, which are crucial for transparency and decision-making. While explicit prompts can lead LLMs to generate probability estimates, their numerical reasoning limitations raise concerns about reliability. We compared explicit probabilities from text generation to implicit probabilities derived from the likelihood of predicting the correct label token. Across six advanced open-source LLMs and five medical datasets, explicit probabilities consistently underperformed implicit probabilities in discrimination, precision, and recall. This discrepancy is more pronounced with smaller LLMs and imbalanced datasets, highlighting the need for cautious interpretation, improved probability estimation methods, and further research for clinical use of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、迅速なエンジニアリングを通じて臨床応用において有望であり、柔軟な臨床予測を可能にしている。
しかし、彼らは、透明性と意思決定に不可欠である信頼性の高い予測確率を生み出すのに苦労しています。
明示的なプロンプトはLSMを確率推定に導くが、それらの数値的推論の制限は信頼性に関する懸念を引き起こす。
テキスト生成からの明示的確率と、正しいラベルトークンを予測する可能性から得られた暗黙的確率を比較した。
6つの先進的なオープンソースLSMと5つの医療データセット、明示的な確率は、識別、精度、リコールの暗黙の確率を一貫して下回った。
この相違は、より小さいLLMと不均衡なデータセットとより顕著であり、慎重な解釈の必要性、確率推定法の改善、LLMのさらなる臨床使用のための研究を強調している。
関連論文リスト
- Uncertainty Quantification for Clinical Outcome Predictions with (Large) Language Models [10.895429855778747]
ホワイトボックスおよびブラックボックス設定におけるEMHタスクに対するLMの不確実性定量化について検討する。
EHRにおけるマルチタスクとアンサンブル手法を用いることで,モデル不確実性を効果的に低減できることを示す。
6,000名以上の患者から得られた縦断的臨床データを10種類の臨床予測タスクで検証した。
論文 参考訳(メタデータ) (2024-11-05T20:20:15Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。
Clinalytix Medical AIは精度が優れていた。
論文 参考訳(メタデータ) (2024-09-16T11:34:40Z) - Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。
本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T09:31:03Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は、そのような正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。