論文の概要: Toward Multimodal Conversational AI for Age-Related Macular Degeneration
- arxiv url: http://arxiv.org/abs/2604.25720v1
- Date: Tue, 28 Apr 2026 14:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.911419
- Title: Toward Multimodal Conversational AI for Age-Related Macular Degeneration
- Title(参考訳): 加齢黄斑変性のための多モーダル対話型AIを目指して
- Authors: Ran Gu, Benjamin Hou, Mélanie Hébert, Asmita Indurkar, Yifan Yang, Emily Y. Chew, Tiarnán D. L. Keenan, Zhiyong Lu,
- Abstract要約: MLLM(Multimodal large language model)は、診断予測と臨床的に意味のある対話を統合して、臨床的意思決定を支援する。
MLLMであるOcularChatは、Qwen2.5-VLから、年齢関連黄斑変性(AMD)を診断するために、シミュレーションされた患者-物理学対話を用いて微調整された。
OcularChatはAREDSで強い分類性能を示し、3つの診断タスクに対して0.954、0.849、0.678の精度を達成した。
- 参考スコア(独自算出の注目度): 9.344405690553534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite strong performance of deep learning models in retinal disease detection, most systems produce static predictions without clinical reasoning or interactive explanation. Recent advances in multimodal large language models (MLLMs) integrate diagnostic predictions with clinically meaningful dialogue to support clinical decision-making and patient counseling. In this study, OcularChat, an MLLM, was fine-tuned from Qwen2.5-VL using simulated patient-physician dialogues to diagnose age-related macular degeneration (AMD) through visual question answering on color fundus photographs (CFPs). A total of 705,850 simulated dialogues paired with 46,167 CFPs were generated to train OcularChat to identify key AMD features and produce reasoned predictions. OcularChat demonstrated strong classification performance in AREDS, achieving accuracies of 0.954, 0.849, and 0.678 for the three diagnostic tasks: advanced AMD, pigmentary abnormalities, and drusen size, significantly outperforming existing MLLMs. On AREDS2, OcularChat remained the top-performing method on all tasks. Across three independent ophthalmologist graders, OcularChat achieved higher mean scores than a strong baseline model for advanced AMD (3.503 vs. 2.833), pigmentary abnormalities (3.272 vs. 2.828), drusen size (3.064 vs. 2.433), and overall impression (2.978 vs. 2.464) on a 5-point clinical grading rubric. Beyond strong objective performance in AMD severity classification, OcularChat demonstrated the ability to provide diagnostic reasoning, clinically relevant explanations, and interactive dialogue, with high performance in subjective ophthalmologist evaluation. These findings suggest that MLLMs may enable accurate, interpretable, and clinically useful image-based diagnosis and classification of AMD.
- Abstract(参考訳): 網膜疾患検出におけるディープラーニングモデルの性能は高いが、ほとんどのシステムは臨床推論やインタラクティブな説明なしに静的な予測を生成する。
MLLM(Multimodal large language model)の最近の進歩は、診断予測と臨床的意義のある対話を統合し、臨床意思決定と患者カウンセリングを支援する。
本研究では, MLLMであるOcularChatをQwen2.5-VLから微調整し, 年齢関連黄斑変性 (AMD) の診断を行った。
46,167個のCFPと組み合わせた705,850個のシミュレーション対話が生成され、OcularChatをトレーニングし、主要なAMDの特徴を特定し、合理的な予測が得られた。
OcularChat は AREDS において強い分類性能を示し, 高度なAMD, 色素異常, ドライゼンサイズという3つの診断課題に対して 0.954, 0.849, 0.678 の精度を達成し, 既存のMLLM よりも有意に優れていた。
AREDS2では、OcularChatはすべてのタスクにおいて最高パフォーマンスの方法であった。
OcularChatは3つの独立した眼科領域において, 高度なAMD(3.503 vs. 2.833), 色素異常(3.272 vs. 2.828), ドルゼンサイズ(3.064 vs. 2.433), 総合的な印象(2.978 vs. 2.464)よりも高い平均スコアを得た。
AMDの重症度分類において、OcularChatは、診断的推論、臨床的に関連のある説明、対話的対話を提供する能力、主観的眼科医の評価において高いパフォーマンスを提供する能力を示した。
以上より,MLLMは画像診断とAMDの分類を正確に,解釈可能で,臨床的に有用である可能性が示唆された。
関連論文リスト
- NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders [0.46375328256275944]
本稿では2次元ニューロイメージングのための視覚対応大規模言語モデルのベンチマーク研究を行う。
我々は,多発性硬化症,脳卒中,脳腫瘍,その他の異常,正常なコントロールを対象とするMRIおよびCTデータセットを用いて検討した。
腫瘍分類は最も信頼性の高い課題として現れ、脳卒中は適度に解決できるが、多発性硬化症や稀な異常は依然として困難である。
論文 参考訳(メタデータ) (2026-03-25T22:26:06Z) - Cerebra: A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment [56.62016795093786]
CerebraはインタラクティブなマルチエージェントAIチームで、ERH、臨床ノート、医療画像分析のための特殊エージェントをコーディネートする。
構造化された表現を操作することで、プライバシ保護デプロイメントをサポートし、モダリティが不完全であれば、堅牢である。
Cerebraは、有識者のパフォーマンスを著しく改善し、前向き認知症リスク推定において精度を17.5ポイント向上させた。
論文 参考訳(メタデータ) (2026-03-23T05:46:45Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning [37.6854362777847]
Med-CMR(Med-CMR)について述べる。
Med-CMRは既存のものと3つのコア機能で区別する。
我々は,Med-CMRを用いた18種類の最先端MLLMを評価し,GPT-5を最高性能の商用モデルとして明らかにした。
論文 参考訳(メタデータ) (2025-11-30T09:56:50Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - MRI-Based Brain Tumor Detection through an Explainable EfficientNetV2 and MLP-Mixer-Attention Architecture [0.0]
脳腫瘍は、死亡率が高いため早期診断を必要とする深刻な健康問題である。
自動診断システムの必要性は日々増している。
脳腫瘍の分類のための頑健で説明可能なディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-09-08T14:08:21Z) - Zero-Shot Multi-modal Large Language Model v.s. Supervised Deep Learning: A Comparative Study on CT-Based Intracranial Hemorrhage Subtyping [13.726496817874152]
非造影CTによる頭蓋内出血(ICH)のタイムリー同定は予後予測と治療的判断に重要である。
本研究は、ICHバイナリ分類およびサブタイプにおける従来のディープラーニング手法と比較して、ゼロショットマルチモーダル大言語モデル(MLLM)の性能を評価する。
論文 参考訳(メタデータ) (2025-05-14T09:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。