論文の概要: RareBench: Can LLMs Serve as Rare Diseases Specialists?
- arxiv url: http://arxiv.org/abs/2402.06341v1
- Date: Fri, 9 Feb 2024 11:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:04:31.397421
- Title: RareBench: Can LLMs Serve as Rare Diseases Specialists?
- Title(参考訳): RareBench: LLMはレア病専門医になれるか?
- Authors: Xuanzhong Chen, Xiaohao Mao, Qihan Guo, Lun Wang, Shuyang Zhang, Ting
Chen
- Abstract要約: Generalist Large Language Models (LLMs) は、医学的診断を含む様々な領域において有望であることを示している。
世界中で約3億人に影響を及ぼす希少な疾患は、しばしば不満足な臨床診断率を持つ。
RareBenchは、希少疾患の領域における4つの重要な次元におけるLSMの能力を評価するために設計された先駆的なベンチマークである。
GPT-4の診断能力と専門医との総合的な比較検討を行った。
- 参考スコア(独自算出の注目度): 12.53328721793234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist Large Language Models (LLMs), such as GPT-4, have shown
considerable promise in various domains, including medical diagnosis. Rare
diseases, affecting approximately 300 million people worldwide, often have
unsatisfactory clinical diagnosis rates primarily due to a lack of experienced
physicians and the complexity of differentiating among many rare diseases. In
this context, recent news such as "ChatGPT correctly diagnosed a 4-year-old's
rare disease after 17 doctors failed" underscore LLMs' potential, yet
underexplored, role in clinically diagnosing rare diseases. To bridge this
research gap, we introduce RareBench, a pioneering benchmark designed to
systematically evaluate the capabilities of LLMs on 4 critical dimensions
within the realm of rare diseases. Meanwhile, we have compiled the largest
open-source dataset on rare disease patients, establishing a benchmark for
future studies in this domain. To facilitate differential diagnosis of rare
diseases, we develop a dynamic few-shot prompt methodology, leveraging a
comprehensive rare disease knowledge graph synthesized from multiple knowledge
bases, significantly enhancing LLMs' diagnostic performance. Moreover, we
present an exhaustive comparative study of GPT-4's diagnostic capabilities
against those of specialist physicians. Our experimental findings underscore
the promising potential of integrating LLMs into the clinical diagnostic
process for rare diseases. This paves the way for exciting possibilities in
future advancements in this field.
- Abstract(参考訳): GPT-4のような汎用大規模言語モデル (LLM) は、医学的診断を含む様々な領域で有望である。
世界中で約3億人の患者に影響を及ぼすまれな疾患は、主に経験豊富な医師の欠如と多くのまれな疾患の分化の複雑さのために、臨床診断が不十分であることが多い。
この文脈では、「ChatGPTは17人の医師が失敗した後、4歳のまれな疾患を正しく診断した」などの最近のニュースは、LSMsが臨床的に稀な疾患を診断する役割を過小評価している。
この研究ギャップを埋めるために,レアな病気の領域内の4つの重要な次元でLSMの能力を体系的に評価する先駆的なベンチマークであるRareBenchを紹介した。
一方,我々はまれな疾患患者のオープンソースデータセットを収集し,この領域における今後の研究のベンチマークを確立した。
稀な疾患の鑑別診断を容易にするため,複数の知識ベースから合成された包括的稀な疾患知識グラフを活用し,LSMの診断性能を著しく向上する動的数発プロンプト手法を開発した。
また, GPT-4の診断能力について, 専門医と比較検討した。
llmを稀な疾患の診断プロセスに統合する可能性について検討した。
これはこの分野の今後の進歩におけるエキサイティングな可能性への道を開く。
関連論文リスト
- A Concept-based Interpretable Model for the Diagnosis of Choroid
Neoplasias using Multimodal Data [28.632437578685842]
我々は成人で最も多い眼がんである脈絡膜新生症(5.1%)に焦点を当てた。
本研究は,3種類の脈絡膜腫瘍を識別する概念に基づく解釈可能なモデルを提案する。
注目すべきは、このモデルがブラックボックスモデルに匹敵するF1スコアの0.91を達成する一方で、ジュニア医師の診断精度を42%向上させることである。
論文 参考訳(メタデータ) (2024-03-08T07:15:53Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Large Language Models with Retrieval-Augmented Generation for Zero-Shot
Disease Phenotyping [1.8630636381951384]
大規模言語モデル(LLM)はテキスト理解の約束を提供するが、実際の臨床文書を効率的に扱うことはできない。
検索拡張生成とMapReduceにより強化されたゼロショットLLM法を提案する。
肺動脈圧の上昇を特徴とする稀な疾患である肺高血圧症(PH)に対して本法を適用した。
論文 参考訳(メタデータ) (2023-12-11T15:45:27Z) - Towards long-tailed, multi-label disease classification from chest X-ray: Overview of the CXR-LT challenge [59.323306639144526]
診断医用画像検査など,現実的な画像認識の問題が数多く発生している。
診断は長い尾と多ラベルの問題であり、患者は複数の所見を呈することが多い。
我々は共通のテーマを合成し、長い尾を持つマルチラベルの医用画像分類のためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2023-10-24T18:26:22Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - Language models are susceptible to incorrect patient self-diagnosis in
medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。
以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文 参考訳(メタデータ) (2023-09-17T19:56:39Z) - Expert Uncertainty and Severity Aware Chest X-Ray Classification by
Multi-Relationship Graph Learning [48.29204631769816]
我々はCXRレポートから病気ラベルを再抽出し,重症度と分類の不確実性を考慮し,より現実的になるようにした。
以上の結果から, 疾患の重症度と不確実性を考慮したモデルが, 従来の最先端手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-06T19:19:41Z) - Evaluate underdiagnosis and overdiagnosis bias of deep learning model on
primary open-angle glaucoma diagnosis in under-served patient populations [64.91773761529183]
原発性オープンアングル緑内障(POAG)はアメリカにおける盲目の主要な原因である。
深層学習は眼底画像を用いたPOAGの検出に広く用いられている。
臨床診断における人間のバイアスは、広く使われているディープラーニングモデルに反映され増幅される可能性がある。
論文 参考訳(メタデータ) (2023-01-26T18:53:09Z) - Exploring deep learning methods for recognizing rare diseases and their
clinical manifestations from texts [1.6328866317851187]
約3億人がまれな病気に罹患している。
これらの症状の早期かつ正確な診断は、それらを特定するのに十分な知識を持っていない一般の実践者にとって大きな課題である。
自然言語処理(NLP)とディープラーニング(Deep Learning)は、関連する情報を抽出して、診断や治療を容易にする。
論文 参考訳(メタデータ) (2021-09-01T12:35:26Z) - Graph-Evolving Meta-Learning for Low-Resource Medical Dialogue
Generation [150.52617238140868]
ソース疾患からターゲット疾患へ診断経験を移すために、低リソースの医療対話生成を提案します。
また,新しい疾患の症状相関を推論するためのコモンセンスグラフの進化を学習するグラフ進化メタラーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2020-12-22T13:20:23Z) - Mining Misdiagnosis Patterns from Biomedical Literature [8.534433954411409]
一般的に誤診される疾患は、多くの異なる疾患と誤診されることが多かった。
誤診の関係は一般的に存在するが、その関係は片側で見られることが多かった。
論文 参考訳(メタデータ) (2020-06-24T13:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。