論文の概要: Combining Insights From Multiple Large Language Models Improves
Diagnostic Accuracy
- arxiv url: http://arxiv.org/abs/2402.08806v1
- Date: Tue, 13 Feb 2024 21:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:30:00.575302
- Title: Combining Insights From Multiple Large Language Models Improves
Diagnostic Accuracy
- Title(参考訳): 複数の大規模言語モデルからの洞察を組み合わせることで診断精度が向上
- Authors: Gioele Barabucci, Victor Shia, Eugene Chu, Benjamin Harack, Nathan Fu
- Abstract要約: 大きな言語モデル (LLM) は診断支援ツールとして提案されるか、あるいは "curbside consults" の代替として言及される。
個別の商業用LDMを問うことで得られた差分診断の精度を,同一LCMの組み合わせからの応答を集約して合成した差分診断の精度と比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Large language models (LLMs) such as OpenAI's GPT-4 or Google's
PaLM 2 are proposed as viable diagnostic support tools or even spoken of as
replacements for "curbside consults". However, even LLMs specifically trained
on medical topics may lack sufficient diagnostic accuracy for real-life
applications.
Methods: Using collective intelligence methods and a dataset of 200 clinical
vignettes of real-life cases, we assessed and compared the accuracy of
differential diagnoses obtained by asking individual commercial LLMs (OpenAI
GPT-4, Google PaLM 2, Cohere Command, Meta Llama 2) against the accuracy of
differential diagnoses synthesized by aggregating responses from combinations
of the same LLMs.
Results: We find that aggregating responses from multiple, various LLMs leads
to more accurate differential diagnoses (average accuracy for 3 LLMs:
$75.3\%\pm 1.6pp$) compared to the differential diagnoses produced by single
LLMs (average accuracy for single LLMs: $59.0\%\pm 6.1pp$).
Discussion: The use of collective intelligence methods to synthesize
differential diagnoses combining the responses of different LLMs achieves two
of the necessary steps towards advancing acceptance of LLMs as a diagnostic
support tool: (1) demonstrate high diagnostic accuracy and (2) eliminate
dependence on a single commercial vendor.
- Abstract(参考訳): 背景: OpenAIのGPT-4やGoogleのPaLM 2のような大規模言語モデル(LLM)は、実行可能な診断支援ツールとして提案されている。
しかし、医学的なトピックを専門に訓練したllmでさえ、実際の応用に十分な診断精度を欠く可能性がある。
方法: 集団知能法と実生活症例200件の臨床検査データを用いて, 個別の商用LCM(OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama)を問うことにより得られた鑑別診断の精度を評価し, 比較した。
2)同一のllmの組み合わせから応答を集約して合成した鑑別診断の精度に逆らう。
結果: 複数 LLM からの応答の集約は, 単一の LLM が生成する差分診断と比較して, より正確な差分診断(平均精度: 75.3 % pm 1.6pp$)につながることがわかった(平均精度: 59.0 % pm 6.1pp$)。
考察: 異なるLSMの応答を組み合わせた差分診断を合成するための集団知能法を用いることで, 診断支援ツールとしてのLCMの受容に向けた必要な2つのステップが達成される: 1) 高い診断精度を示し, (2) 単一商用ベンダーへの依存を排除した。
関連論文リスト
- Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。
この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文 参考訳(メタデータ) (2024-10-27T23:48:47Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints [8.547853819087043]
複数のプロンプト戦略を用いて医学的誤りを識別・修正する一般LSMの能力を評価する。
より小さな微調整モデルからエラースパン予測を2つの方法で組み込むことを提案する。
8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
論文 参考訳(メタデータ) (2024-05-28T10:20:29Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。
また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。
本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and
Symptom Analysis [2.4554686192257424]
大規模言語モデル(LLM)は最先端の人工知能技術である。
マルチモーダル多重選択質問紙を用いたLCMによる診断の正確性および正確性について検討した。
病理学の広い知識領域に含まれる幅広い疾患, 病態, 化学物質, 関連エンティティタイプについて検討した。
論文 参考訳(メタデータ) (2024-01-28T09:25:12Z) - Surpassing GPT-4 Medical Coding with a Two-Stage Approach [1.7014913888753238]
GPT-4 LLMは、医療コーディングタスクのICD符号の過剰な数を予測する。
LLM-codexは,まずエビデンス提案を発生させ,LSTMに基づく検証段階を用いる2段階のICD符号予測手法である。
我々のモデルは、医学的コーディングの精度、稀な符号の精度、文章レベルの証拠の特定を同時に達成する唯一の方法である。
論文 参考訳(メタデータ) (2023-11-22T23:35:13Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。