Fugu-MT 論文翻訳(概要): Position Paper On Diagnostic Uncertainty Estimation from Large Language Models: Next-Word Probability Is Not Pre-test Probability

論文の概要: Position Paper On Diagnostic Uncertainty Estimation from Large Language Models: Next-Word Probability Is Not Pre-test Probability

arxiv url: http://arxiv.org/abs/2411.04962v1
Date: Thu, 07 Nov 2024 18:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.491507
Title: Position Paper On Diagnostic Uncertainty Estimation from Large Language Models: Next-Word Probability Is Not Pre-test Probability
Title（参考訳）: 大規模言語モデルによる診断の不確かさ推定の位置づけ--次世代単語確率はテスト前確率ではない
Authors: Yanjun Gao, Skatje Myers, Shan Chen, Dmitriy Dligach, Timothy A Miller, Danielle Bitterman, Guanhua Chen, Anoop Mayampurath, Matthew Churpek, Majid Afshar,
Abstract要約: 大規模言語モデル(LLM)は、診断決定支援のために検討されている。臨床的な意思決定に不可欠な事前検査の確率を推定する能力は依然として限られている。本研究では,3つの診断タスクに関する電子的健康記録データを用いて,Mistral-7BとLlama3-70Bの2つのLSMを評価した。
参考スコア（独自算出の注目度）: 11.083059670006833
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) are being explored for diagnostic decision support, yet their ability to estimate pre-test probabilities, vital for clinical decision-making, remains limited. This study evaluates two LLMs, Mistral-7B and Llama3-70B, using structured electronic health record data on three diagnosis tasks. We examined three current methods of extracting LLM probability estimations and revealed their limitations. We aim to highlight the need for improved techniques in LLM confidence estimation.
Abstract（参考訳）: 大規模言語モデル (LLM) は診断決定支援のために検討されているが, 臨床診断に不可欠な事前試験の確率を推定する能力は依然として限られている。本研究では,3つの診断タスクに関する電子的健康記録データを用いて,Mistral-7BとLlama3-70Bの2つのLSMを評価した。 LLMの確率推定を抽出する3つの現行手法について検討し,その限界を明らかにした。 LLM信頼度推定における改良技術の必要性を強調することを目的としている。

関連論文リスト

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文参考訳（メタデータ） (2025-02-25T10:15:21Z)
Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文参考訳（メタデータ） (2025-02-24T06:24:20Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文参考訳（メタデータ） (2025-01-03T23:03:24Z)
LeCov: Multi-level Testing Criteria for Large Language Models [18.558729220192415]
大きな言語モデル(LLM)は多くの異なるドメインで広く使われているが、その解釈可能性に限界があるため、それらがどの程度信頼できるかという疑問がある。最近の研究は、デプロイ前に信頼できない問題を明らかにすることを目的として、LSMのテスト方法の開発を開始した。この脅威を軽減するために,LLMのマルチレベルテスト基準であるLeCovを提案する。
論文参考訳（メタデータ） (2024-08-20T01:17:54Z)
SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-07-24T04:47:36Z)
SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文参考訳（メタデータ） (2024-04-16T23:56:38Z)
Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文参考訳（メタデータ） (2024-03-09T13:48:20Z)
Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文参考訳（メタデータ） (2024-02-15T17:05:48Z)
Evaluating Echo State Network for Parkinson's Disease Prediction using Voice Features [1.2289361708127877]
本研究の目的は,偽陰性の最小化と高精度化を両立できる診断モデルを開発することである。 Echo State Networks (ESN)、Random Forest、k-nearest Neighbors、Support Vector、Extreme Gradient Boosting、Decision Treeなど、さまざまな機械学習手法が採用され、徹底的に評価されている。 ESNは83%の症例で8%未満の偽陰性率を維持している。
論文参考訳（メタデータ） (2024-01-28T14:39:43Z)
Deciphering Diagnoses: How Large Language Models Explanations Influence Clinical Decision Making [0.0]
大きな言語モデル(LLM)は、医学的な決定のための平文の説明を生成するための有望なツールとして現れています。本研究は, 患者の苦情に基づく診断のための説明書作成におけるLCMの有効性と信頼性について検討した。
論文参考訳（メタデータ） (2023-10-03T00:08:23Z)
CPLLM: Clinical Prediction with Large Language Models [0.07083082555458872]
本稿では,臨床疾患に対するLLM(Pre-trained Large Language Model)の微調整と寛容予測を行う手法を提案する。診断予測には,患者の来訪時に対象疾患と診断されるか,その後に診断されるかを,過去の診断記録を利用して予測する。提案手法であるCPLLMは,PR-AUCおよびROC-AUCの指標で試験された全てのモデルを上回ることを示した。
論文参考訳（メタデータ） (2023-09-20T13:24:12Z)
Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文参考訳（メタデータ） (2021-02-08T10:26:44Z)
Hemogram Data as a Tool for Decision-making in COVID-19 Management: Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文参考訳（メタデータ） (2020-05-10T01:45:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。