論文の概要: RareBench: Can LLMs Serve as Rare Diseases Specialists?
- arxiv url: http://arxiv.org/abs/2402.06341v1
- Date: Fri, 9 Feb 2024 11:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:04:31.397421
- Title: RareBench: Can LLMs Serve as Rare Diseases Specialists?
- Title(参考訳): RareBench: LLMはレア病専門医になれるか?
- Authors: Xuanzhong Chen, Xiaohao Mao, Qihan Guo, Lun Wang, Shuyang Zhang, Ting
Chen
- Abstract要約: Generalist Large Language Models (LLMs) は、医学的診断を含む様々な領域において有望であることを示している。
世界中で約3億人に影響を及ぼす希少な疾患は、しばしば不満足な臨床診断率を持つ。
RareBenchは、希少疾患の領域における4つの重要な次元におけるLSMの能力を評価するために設計された先駆的なベンチマークである。
GPT-4の診断能力と専門医との総合的な比較検討を行った。
- 参考スコア(独自算出の注目度): 12.53328721793234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalist Large Language Models (LLMs), such as GPT-4, have shown
considerable promise in various domains, including medical diagnosis. Rare
diseases, affecting approximately 300 million people worldwide, often have
unsatisfactory clinical diagnosis rates primarily due to a lack of experienced
physicians and the complexity of differentiating among many rare diseases. In
this context, recent news such as "ChatGPT correctly diagnosed a 4-year-old's
rare disease after 17 doctors failed" underscore LLMs' potential, yet
underexplored, role in clinically diagnosing rare diseases. To bridge this
research gap, we introduce RareBench, a pioneering benchmark designed to
systematically evaluate the capabilities of LLMs on 4 critical dimensions
within the realm of rare diseases. Meanwhile, we have compiled the largest
open-source dataset on rare disease patients, establishing a benchmark for
future studies in this domain. To facilitate differential diagnosis of rare
diseases, we develop a dynamic few-shot prompt methodology, leveraging a
comprehensive rare disease knowledge graph synthesized from multiple knowledge
bases, significantly enhancing LLMs' diagnostic performance. Moreover, we
present an exhaustive comparative study of GPT-4's diagnostic capabilities
against those of specialist physicians. Our experimental findings underscore
the promising potential of integrating LLMs into the clinical diagnostic
process for rare diseases. This paves the way for exciting possibilities in
future advancements in this field.
- Abstract(参考訳): GPT-4のような汎用大規模言語モデル (LLM) は、医学的診断を含む様々な領域で有望である。
世界中で約3億人の患者に影響を及ぼすまれな疾患は、主に経験豊富な医師の欠如と多くのまれな疾患の分化の複雑さのために、臨床診断が不十分であることが多い。
この文脈では、「ChatGPTは17人の医師が失敗した後、4歳のまれな疾患を正しく診断した」などの最近のニュースは、LSMsが臨床的に稀な疾患を診断する役割を過小評価している。
この研究ギャップを埋めるために,レアな病気の領域内の4つの重要な次元でLSMの能力を体系的に評価する先駆的なベンチマークであるRareBenchを紹介した。
一方,我々はまれな疾患患者のオープンソースデータセットを収集し,この領域における今後の研究のベンチマークを確立した。
稀な疾患の鑑別診断を容易にするため,複数の知識ベースから合成された包括的稀な疾患知識グラフを活用し,LSMの診断性能を著しく向上する動的数発プロンプト手法を開発した。
また, GPT-4の診断能力について, 専門医と比較検討した。
llmを稀な疾患の診断プロセスに統合する可能性について検討した。
これはこの分野の今後の進歩におけるエキサイティングな可能性への道を開く。
関連論文リスト
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Prompting Large Language Models for Supporting the Differential Diagnosis of Anemia [0.8602553195689511]
実際には、臨床医は、検査、観察、イメージングなどの一連の手順に従って診断を行う。
診断決定に到達するための経路は、専門家組織が作成したガイドラインによって文書化され、これらの手順を通じて臨床医が正しい診断に到達するよう指導する。
本研究の目的は,臨床ガイドラインで得られるものと同様の経路を発達させることであった。
我々は3つのLarge Language Model (LLMs) -Generative Pretrained Transformer 4 (GPT-4)、Large Language Model Meta AI (LLaMA)、Mistral - を、貧血とそのサブタイプを識別するための合成的で現実的なデータセットでテストした。
論文 参考訳(メタデータ) (2024-09-20T06:47:36Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。
GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。
Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文 参考訳(メタデータ) (2024-05-09T15:12:24Z) - AutoRD: An Automatic and End-to-End System for Rare Disease Knowledge Graph Construction Based on Ontologies-enhanced Large Language Models [25.966454809890227]
希少な病気は世界中で数百万人に影響を与えるが、その頻度が低いため研究の焦点が限られていることが多い。
近年のLarge Language Models (LLMs) の進歩は, 医療情報の抽出を自動化することを約束している。
本稿では,まれな疾患に関する医療用テキストから情報を自動的に抽出するAutoRDというエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-03-01T20:06:39Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - Exploring deep learning methods for recognizing rare diseases and their
clinical manifestations from texts [1.6328866317851187]
約3億人がまれな病気に罹患している。
これらの症状の早期かつ正確な診断は、それらを特定するのに十分な知識を持っていない一般の実践者にとって大きな課題である。
自然言語処理(NLP)とディープラーニング(Deep Learning)は、関連する情報を抽出して、診断や治療を容易にする。
論文 参考訳(メタデータ) (2021-09-01T12:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。