Fugu-MT 論文翻訳(概要): Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

論文の概要: Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy

arxiv url: http://arxiv.org/abs/2402.08806v1
Date: Tue, 13 Feb 2024 21:24:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 17:30:00.575302
Title: Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy
Title（参考訳）: 複数の大規模言語モデルからの洞察を組み合わせることで診断精度が向上
Authors: Gioele Barabucci, Victor Shia, Eugene Chu, Benjamin Harack, Nathan Fu
Abstract要約: 大きな言語モデル (LLM) は診断支援ツールとして提案されるか、あるいは "curbside consults" の代替として言及される。個別の商業用LDMを問うことで得られた差分診断の精度を,同一LCMの組み合わせからの応答を集約して合成した差分診断の精度と比較した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: Large language models (LLMs) such as OpenAI's GPT-4 or Google's PaLM 2 are proposed as viable diagnostic support tools or even spoken of as replacements for "curbside consults". However, even LLMs specifically trained on medical topics may lack sufficient diagnostic accuracy for real-life applications. Methods: Using collective intelligence methods and a dataset of 200 clinical vignettes of real-life cases, we assessed and compared the accuracy of differential diagnoses obtained by asking individual commercial LLMs (OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama 2) against the accuracy of differential diagnoses synthesized by aggregating responses from combinations of the same LLMs. Results: We find that aggregating responses from multiple, various LLMs leads to more accurate differential diagnoses (average accuracy for 3 LLMs: $75.3\%\pm 1.6pp$) compared to the differential diagnoses produced by single LLMs (average accuracy for single LLMs: $59.0\%\pm 6.1pp$). Discussion: The use of collective intelligence methods to synthesize differential diagnoses combining the responses of different LLMs achieves two of the necessary steps towards advancing acceptance of LLMs as a diagnostic support tool: (1) demonstrate high diagnostic accuracy and (2) eliminate dependence on a single commercial vendor.
Abstract（参考訳）: 背景: OpenAIのGPT-4やGoogleのPaLM 2のような大規模言語モデル(LLM)は、実行可能な診断支援ツールとして提案されている。しかし、医学的なトピックを専門に訓練したllmでさえ、実際の応用に十分な診断精度を欠く可能性がある。方法: 集団知能法と実生活症例200件の臨床検査データを用いて, 個別の商用LCM(OpenAI GPT-4, Google PaLM 2, Cohere Command, Meta Llama)を問うことにより得られた鑑別診断の精度を評価し, 比較した。 2)同一のllmの組み合わせから応答を集約して合成した鑑別診断の精度に逆らう。結果: 複数 LLM からの応答の集約は, 単一の LLM が生成する差分診断と比較して, より正確な差分診断(平均精度: 75.3 % pm 1.6pp$)につながることがわかった(平均精度: 59.0 % pm 6.1pp$)。考察: 異なるLSMの応答を組み合わせた差分診断を合成するための集団知能法を用いることで, 診断支援ツールとしてのLCMの受容に向けた必要な2つのステップが達成される: 1) 高い診断精度を示し, (2) 単一商用ベンダーへの依存を排除した。

関連論文リスト

MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文参考訳（メタデータ） (2025-06-24T17:52:43Z)
Leveraging LLMs for Predicting Unknown Diagnoses from Clinical Notes [21.43498764977656]
放電サマリーはより完全な情報を提供する傾向があり、正確な診断を推測するのに役立ちます。本研究は,大言語モデル(LLM)が臨床ノートから暗黙的に言及された診断を予測し,それに対応する薬剤にリンクできるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-28T02:15:57Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Language Models And A Second Opinion Use Case: The Pocket Professional [0.0]
本研究は、専門的な意思決定において、正式な第二意見ツールとして、LLM(Large Language Models)の役割を検証する。この研究は、20ヶ月にわたるMedscapeからの183の挑戦的な医療事例を分析し、クラウドソースされた医師の反応に対して複数のLSMのパフォーマンスをテストした。
論文参考訳（メタデータ） (2024-10-27T23:48:47Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。 ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文参考訳（メタデータ） (2024-08-15T21:09:09Z)
Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints [8.547853819087043]
複数のプロンプト戦略を用いて医学的誤りを識別・修正する一般LSMの能力を評価する。より小さな微調整モデルからエラースパン予測を2つの方法で組み込むことを提案する。 8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。
論文参考訳（メタデータ） (2024-05-28T10:20:29Z)
XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文参考訳（メタデータ） (2024-05-10T06:52:44Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis [2.4554686192257424]
大規模言語モデル(LLM)は最先端の人工知能技術である。マルチモーダル多重選択質問紙を用いたLCMによる診断の正確性および正確性について検討した。病理学の広い知識領域に含まれる幅広い疾患, 病態, 化学物質, 関連エンティティタイプについて検討した。
論文参考訳（メタデータ） (2024-01-28T09:25:12Z)
Surpassing GPT-4 Medical Coding with a Two-Stage Approach [1.7014913888753238]
GPT-4 LLMは、医療コーディングタスクのICD符号の過剰な数を予測する。 LLM-codexは,まずエビデンス提案を発生させ,LSTMに基づく検証段階を用いる2段階のICD符号予測手法である。我々のモデルは、医学的コーディングの精度、稀な符号の精度、文章レベルの証拠の特定を同時に達成する唯一の方法である。
論文参考訳（メタデータ） (2023-11-22T23:35:13Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。