Fugu-MT 論文翻訳(概要): Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis

論文の概要: Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis

arxiv url: http://arxiv.org/abs/2402.01730v1
Date: Sun, 28 Jan 2024 09:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-11 16:17:39.176553
Title: Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and Symptom Analysis
Title（参考訳）: LLMの評価-医用画像からのマルチモーダル診断と症状解析
Authors: Dimitrios P. Panagoulias, Maria Virvou and George A. Tsihrintzis
Abstract要約: 大規模言語モデル(LLM)は最先端の人工知能技術である。マルチモーダル多重選択質問紙を用いたLCMによる診断の正確性および正確性について検討した。病理学の広い知識領域に含まれる幅広い疾患, 病態, 化学物質, 関連エンティティタイプについて検討した。
参考スコア（独自算出の注目度）: 2.4554686192257424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) constitute a breakthrough state-of-the-art Artificial Intelligence technology which is rapidly evolving and promises to aid in medical diagnosis. However, the correctness and the accuracy of their returns has not yet been properly evaluated. In this work, we propose an LLM evaluation paradigm that incorporates two independent steps of a novel methodology, namely (1) multimodal LLM evaluation via structured interactions and (2) follow-up, domain-specific analysis based on data extracted via the previous interactions. Using this paradigm, (1) we evaluate the correctness and accuracy of LLM-generated medical diagnosis with publicly available multimodal multiple-choice questions(MCQs) in the domain of Pathology and (2) proceed to a systemic and comprehensive analysis of extracted results. We used GPT-4-Vision-Preview as the LLM to respond to complex, medical questions consisting of both images and text, and we explored a wide range of diseases, conditions, chemical compounds, and related entity types that are included in the vast knowledge domain of Pathology. GPT-4-Vision-Preview performed quite well, scoring approximately 84\% of correct diagnoses. Next, we further analyzed the findings of our work, following an analytical approach which included Image Metadata Analysis, Named Entity Recognition and Knowledge Graphs. Weaknesses of GPT-4-Vision-Preview were revealed on specific knowledge paths, leading to a further understanding of its shortcomings in specific areas. Our methodology and findings are not limited to the use of GPT-4-Vision-Preview, but a similar approach can be followed to evaluate the usefulness and accuracy of other LLMs and, thus, improve their use with further optimization.
Abstract（参考訳）: 大規模言語モデル(LLM)は最先端の人工知能技術であり、急速に進化し、医療診断の支援を約束している。しかし、その帰納の正確さや正確さはまだ適切に評価されていない。本研究では,(1)構造化相互作用によるマルチモーダルLCM評価と(2)先行相互作用によるデータに基づくドメイン固有分析という,新しい手法の2つの独立したステップを取り入れたLCM評価パラダイムを提案する。本手法を用いて,(1)病理領域におけるマルチモーダル・マルチチョイス質問(mcqs)を用いたllm生成医療診断の正確性と正確性を評価し,(2)抽出結果の体系的かつ包括的な分析を行う。 gpt-4-vision-previewを画像とテキストの両方からなる複雑な医学的質問に応答するためにllmとして使用し,病理学の広い知識領域に含まれる様々な疾患,病態,化学物質,関連エンティティについて検討した。 GPT-4-Vision-Preview は, 約84 %の正しい診断結果を得た。次に、画像メタデータ分析、名前付きエンティティ認識、知識グラフを含む分析的アプローチに従って、研究成果をさらに分析した。 GPT-4-Vision-Previewの弱さは、特定の知識経路で明らかにされ、特定の領域における欠点のさらなる理解につながった。提案手法は gpt-4-vision-preview の使用に限らず,他の llm の有用性と正確性を評価するために同様の手法を適用でき,さらなる最適化により使用性が向上する。

関連論文リスト

Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。様々な医用画像モダリティにまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-06-11T22:23:38Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models [17.579521693647383]
臨床的に好ましい網膜画像の定量的解析のための多モード対話アシスタントであるtextitRetinalGPT を紹介する。特に網膜GPTは、網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。
論文参考訳（メタデータ） (2025-03-06T00:19:54Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
Large Language Models for Disease Diagnosis: A Scoping Review [29.498658795329977]
大規模言語モデル(LLM)の出現は、人工知能のパラダイムシフトを引き起こした。この分野に注目が集まっているにもかかわらず、多くの重要な研究課題が未解決のままである。本研究は, 疾患の種類, 関連臓器システム, 関連臨床データ, LLM技術, 既存の研究で報告されている評価方法について検討した。
論文参考訳（メタデータ） (2024-08-27T02:06:45Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。 5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文参考訳（メタデータ） (2024-06-10T14:47:04Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。 FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文参考訳（メタデータ） (2023-12-19T17:36:48Z)
Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文参考訳（メタデータ） (2023-12-08T08:43:46Z)
Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文参考訳（メタデータ） (2023-07-30T16:08:45Z)
MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文参考訳（メタデータ） (2021-07-20T07:04:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。