論文の概要: Evaluating the Feasibility and Accuracy of Large Language Models for Medical History-Taking in Obstetrics and Gynecology
- arxiv url: http://arxiv.org/abs/2504.00061v1
- Date: Mon, 31 Mar 2025 14:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.447002
- Title: Evaluating the Feasibility and Accuracy of Large Language Models for Medical History-Taking in Obstetrics and Gynecology
- Title(参考訳): 医学史における大規模言語モデルの有効性と正確性の評価-産婦人科・産婦人科におけるアプローチ-
- Authors: Dou Liu, Ying Long, Sophia Zuoqiu, Tian Tang, Rong Yin,
- Abstract要約: 効果的な医師と患者のコミュニケーションは重要であるが、多くの時間を消費するので、クリニックは非効率になる。
近年のLarge Language Models (LLMs) の進歩は、医療履歴の自動作成と診断精度の向上のための潜在的なソリューションを提供する。
ChatGPT-4oとChatGPT-4o-miniとの医師と患者との相互作用をシミュレートするAI駆動型会話システムを開発した。
両モデルとも不妊の履歴取り出しを自動化できる可能性を示し、ChatGPT-4o-miniは完全性と抽出精度に優れていた。
- 参考スコア(独自算出の注目度): 4.48731404829722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective physician-patient communications in pre-diagnostic environments, and most specifically in complex and sensitive medical areas such as infertility, are critical but consume a lot of time and, therefore, cause clinic workflows to become inefficient. Recent advancements in Large Language Models (LLMs) offer a potential solution for automating conversational medical history-taking and improving diagnostic accuracy. This study evaluates the feasibility and performance of LLMs in those tasks for infertility cases. An AI-driven conversational system was developed to simulate physician-patient interactions with ChatGPT-4o and ChatGPT-4o-mini. A total of 70 real-world infertility cases were processed, generating 420 diagnostic histories. Model performance was assessed using F1 score, Differential Diagnosis (DDs) Accuracy, and Accuracy of Infertility Type Judgment (ITJ). ChatGPT-4o-mini outperformed ChatGPT-4o in information extraction accuracy (F1 score: 0.9258 vs. 0.9029, p = 0.045, d = 0.244) and demonstrated higher completeness in medical history-taking (97.58% vs. 77.11%), suggesting that ChatGPT-4o-mini is more effective in extracting detailed patient information, which is critical for improving diagnostic accuracy. In contrast, ChatGPT-4o performed slightly better in differential diagnosis accuracy (2.0524 vs. 2.0048, p > 0.05). ITJ accuracy was higher in ChatGPT-4o-mini (0.6476 vs. 0.5905) but with lower consistency (Cronbach's $\alpha$ = 0.562), suggesting variability in classification reliability. Both models demonstrated strong feasibility in automating infertility history-taking, with ChatGPT-4o-mini excelling in completeness and extraction accuracy. In future studies, expert validation for accuracy and dependability in a clinical setting, AI model fine-tuning, and larger datasets with a mix of cases of infertility have to be prioritized.
- Abstract(参考訳): 診断前環境、特に不妊症のような複雑で敏感な医療領域における効果的な医師と患者とのコミュニケーションは重要であるが、多くの時間を消費しているため、診療ワークフローが非効率になる。
近年のLarge Language Models (LLMs) の進歩は、対話型医療履歴の自動作成と診断精度の向上のための潜在的なソリューションを提供する。
本研究は, 不妊治療におけるLCMの実現可能性と性能について検討した。
ChatGPT-4oとChatGPT-4o-miniとの医師と患者との相互作用をシミュレートするAI駆動型会話システムを開発した。
実世界の不妊症70例が処理され,420例の診断歴が得られた。
F1スコア,差分診断(DDs)精度,不妊症型判定(ITJ)精度を用いてモデル性能を評価した。
ChatGPT-4o-miniは、情報抽出精度(F1スコア: 0.9258 vs. 0.9029, p = 0.045, d = 0.244)において、ChatGPT-4oよりも優れており、診断精度の向上に欠かせない詳細な患者情報の抽出に、ChatGPT-4o-miniが有効であることが示唆された。
一方,ChatGPT-4oは診断精度が2.0524 vs. 2.0048, p > 0.05。
ITJの精度はChatGPT-4o-mini (0.6476 vs. 0.5905)では高く、一貫性は低い(Cronbachの$\alpha$ = 0.562)。
両モデルとも不妊の履歴取り出しを自動化できる可能性を示し、ChatGPT-4o-miniは完全性と抽出精度に優れていた。
今後の研究では、臨床環境での精度と信頼性に関する専門家による検証、AIモデルの微調整、不妊の混在したより大きなデータセットの優先順位付けが求められている。
関連論文リスト
- Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Urinary Tract Infection Detection in Digital Remote Monitoring: Strategies for Managing Participant-Specific Prediction Complexity [43.108040967674185]
尿路感染症(UTIs)は特に認知症(PLWD)の患者にとって重要な健康上の問題である
この研究は、PLWDのUTIを検出する機械学習(ML)を利用した以前の研究に基づいている。
論文 参考訳(メタデータ) (2025-02-18T12:01:55Z) - Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding [44.01429184037945]
自動ゼロショット医療符号化のための新しい合成LLMシステムであるALIGNを紹介する。
我々は、ALIGNを解剖学的治療化学(ATC)と医学史用語に調和させ、MedDRA(Medicical Dictionary for Regulatory Activity)コードに評価した。
論文 参考訳(メタデータ) (2024-11-20T09:59:12Z) - Towards Equitable ASD Diagnostics: A Comparative Study of Machine and Deep Learning Models Using Behavioral and Facial Data [2.6353853440763113]
自閉症スペクトラム障害(ASD)は性差によって診断されることが多い。
本研究では, 機械学習モデル, 特にランダムフォレストと畳み込みニューラルネットワークを評価し, ASD 診断の精度を高める。
論文 参考訳(メタデータ) (2024-11-08T05:26:04Z) - Improving Clinical Documentation with AI: A Comparative Study of Sporo AI Scribe and GPT-4o mini [0.0]
Sporo HealthのAI書式はOpenAIのGPT-4o Miniに対して評価された。
結果から,スポロAIはGPT-4o Miniを一貫して上回り,リコール率,精度,F1スコア全体を達成した。
論文 参考訳(メタデータ) (2024-10-20T22:48:40Z) - Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。
本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文 参考訳(メタデータ) (2024-10-09T06:00:05Z) - Towards Accountable AI-Assisted Eye Disease Diagnosis: Workflow Design, External Validation, and Continual Learning [5.940140611616894]
AIは診断精度が保証されるが、臨床および多様な集団の検証が不十分なため、現実の応用問題に直面している。
本研究は、年齢関連黄斑変性(AMD)診断と分類重症度に関するケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
論文 参考訳(メタデータ) (2024-09-23T15:01:09Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - DDxT: Deep Generative Transformer Models for Differential Diagnosis [51.25660111437394]
より単純な教師付き学習信号と自己教師付き学習信号で訓練した生成的アプローチが,現在のベンチマークにおいて優れた結果が得られることを示す。
The proposed Transformer-based generative network, named DDxT, autoregressive produce a set of possible pathology,, i. DDx, and predicts the real pathology using a neural network。
論文 参考訳(メタデータ) (2023-12-02T22:57:25Z) - More Reliable AI Solution: Breast Ultrasound Diagnosis Using Multi-AI
Combination [1.3357122589980752]
AIシステムに埋め込まれた既存のマシンは、臨床医が期待する精度に達しない。
超解像ネットワークは、デバイス自体による超音波画像の不明瞭さを低減する。
対象モデルを分類モデルに変換する2つの方法を提案する。
論文 参考訳(メタデータ) (2021-01-07T17:19:00Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。