論文の概要: The Case Records of ChatGPT: Language Models and Complex Clinical
Questions
- arxiv url: http://arxiv.org/abs/2305.05609v1
- Date: Tue, 9 May 2023 16:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:02:58.242507
- Title: The Case Records of ChatGPT: Language Models and Complex Clinical
Questions
- Title(参考訳): chatgptの症例記録:言語モデルと複雑な臨床質問
- Authors: Timothy Poterucha, Pierre Elias, Christopher M. Haggerty
- Abstract要約: 臨床診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。
GPT4, GPT3.5は1回の試行で26%, 22%, 3回の検行で46%, 42%の精度で正しい診断を行った。
- 参考スコア(独自算出の注目度): 0.35157846138914034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background: Artificial intelligence language models have shown promise in
various applications, including assisting with clinical decision-making as
demonstrated by strong performance of large language models on medical
licensure exams. However, their ability to solve complex, open-ended cases,
which may be representative of clinical practice, remains unexplored. Methods:
In this study, the accuracy of large language AI models GPT4 and GPT3.5 in
diagnosing complex clinical cases was investigated using published Case Records
of the Massachusetts General Hospital. A total of 50 cases requiring a
diagnosis and diagnostic test published from January 1, 2022 to April 16, 2022
were identified. For each case, models were given a prompt requesting the top
three specific diagnoses and associated diagnostic tests, followed by case
text, labs, and figure legends. Model outputs were assessed in comparison to
the final clinical diagnosis and whether the model-predicted test would result
in a correct diagnosis. Results: GPT4 and GPT3.5 accurately provided the
correct diagnosis in 26% and 22% of cases in one attempt, and 46% and 42%
within three attempts, respectively. GPT4 and GPT3.5 provided a correct
essential diagnostic test in 28% and 24% of cases in one attempt, and 44% and
50% within three attempts, respectively. No significant differences were found
between the two models, and multiple trials with identical prompts using the
GPT3.5 model provided similar results. Conclusions: In summary, these models
demonstrate potential usefulness in generating differential diagnoses but
remain limited in their ability to provide a single unifying diagnosis in
complex, open-ended cases. Future research should focus on evaluating model
performance in larger datasets of open-ended clinical challenges and exploring
potential human-AI collaboration strategies to enhance clinical
decision-making.
- Abstract(参考訳): 背景: 人工知能言語モデルは、医療ライセンス試験における大規模言語モデルの強力なパフォーマンスによって示される臨床意思決定の支援を含む、様々な応用において有望である。
しかし, 臨床実践を代表する複雑でオープンな症例を解決できる能力は, いまだ解明されていない。
方法: マサチューセッツ総合病院の症例記録を用いて, 複雑な症例の診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。
2022年1月1日から4月16日までに公表された診断・診断検査を要した症例50例が確認された。
それぞれのケースに対して、モデルは、上位3つの特定の診断と関連する診断テスト、次にケーステキスト、ラボ、およびフィギュアレジェンドを要求するプロンプトを与えられた。
最終臨床診断と比較し, モデル予測検査が正しい診断をもたらすか否かを, モデルアウトプットの評価を行った。
結果: GPT4, GPT3.5は1回の試験で26%, 22%, 3回の試験で46%, 42%の精度で正しい診断を行った。
GPT4, GPT3.5は1回の試行で28%, 24%, 3回の検行で44%, 50%の正当性診断を施行した。
2つのモデルの間に有意な差は見られず、同じプロンプトを持つ複数の試験ではGPT3.5モデルが同様の結果を示した。
結論: 結論: これらのモデルは, 鑑別診断の作成に有用であるが, 複雑でオープンな症例において, 単一の統一診断を提供する能力は限られている。
今後の研究は、オープンエンドの臨床課題のより大きなデータセットにおけるモデルパフォーマンスの評価と、臨床意思決定を強化するための人間とAIの協力戦略の探求に焦点をあてる。
関連論文リスト
- Towards Accountable AI-Assisted Eye Disease Diagnosis: Workflow Design, External Validation, and Continual Learning [5.940140611616894]
AIは診断精度が保証されるが、臨床および多様な集団の検証が不十分なため、現実の応用問題に直面している。
本研究は、年齢関連黄斑変性(AMD)診断と分類重症度に関するケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
論文 参考訳(メタデータ) (2024-09-23T15:01:09Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Methodology and Real-World Applications of Dynamic Uncertain Causality Graph for Clinical Diagnosis with Explainability and Invariance [41.373856519548404]
Dynamic Uncertain Causality Graph (DUCG)アプローチは、さまざまなアプリケーションシナリオで因果性駆動、説明可能、不変である。
54件の主訴を含む46件のDUCGモデルが製造された。
実際の診断は100万件以上行われており、誤診断は17例に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-09T11:37:45Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - The Potential and Pitfalls of using a Large Language Model such as
ChatGPT or GPT-4 as a Clinical Assistant [12.017491902296836]
ChatGPTとGPT-4はいくつかの医療領域で有望な性能を示した。
われわれはChatGPTとGPT-4を用いて2つの分析を行った。
患者の評価では、GPT-4は4回に3回、正確に診断できる。
論文 参考訳(メタデータ) (2023-07-16T21:19:47Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。