論文の概要: GROK: From Quantitative Biomarkers to Qualitative Diagnosis via a Grounded MLLM with Knowledge-Guided Instruction
- arxiv url: http://arxiv.org/abs/2510.04281v1
- Date: Sun, 05 Oct 2025 16:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.558225
- Title: GROK: From Quantitative Biomarkers to Qualitative Diagnosis via a Grounded MLLM with Knowledge-Guided Instruction
- Title(参考訳): GROK:知識指導による基礎MLLMによる定量的バイオマーカーから定性診断へ
- Authors: Zhuangzhi Gao, Hongyi Qin, He Zhao, Qinkai Yu, Feixiang Zhou, Eduard Shantsila, Uazman Alam, Alena Shantsila, Wahbi El-Bouri, Gregory Y. H. Lip, Yalin Zheng,
- Abstract要約: GROKは、カラー・ファンドス写真、光コヒーレンス・トモグラフィー、テキストを処理し、臨床レベルの眼疾患と全身疾患の診断を提供する、接地型多モード大言語モデルである。
GROKは3つのコアモジュールから構成されており、知識ガイドインストラクション生成、CLIP-Style OCT-Biomarker Alignment、Supervised Instruction Fine-Tuningの3つで構成されている。
実験の結果、GROKは報告品質と詳細な臨床指標の両方で 7B と 32B のベースラインを上回り、OpenAI o3 を上回ります。
- 参考スコア(独自算出の注目度): 8.715998861815683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) hold promise for integrating diverse data modalities, but current medical adaptations such as LLaVA-Med often fail to fully exploit the synergy between color fundus photography (CFP) and optical coherence tomography (OCT), and offer limited interpretability of quantitative biomarkers. We introduce GROK, a grounded multimodal large language model that jointly processes CFP, OCT, and text to deliver clinician-grade diagnoses of ocular and systemic disease. GROK comprises three core modules: Knowledge-Guided Instruction Generation, CLIP-Style OCT-Biomarker Alignment, and Supervised Instruction Fine-Tuning, which together establish a quantitative-to-qualitative diagnostic chain of thought, mirroring real clinical reasoning when producing detailed lesion annotations. To evaluate our approach, we introduce the Grounded Ophthalmic Understanding benchmark, which covers six disease categories and three tasks: macro-level diagnostic classification, report generation quality, and fine-grained clinical assessment of the generated chain of thought. Experiments show that, with only LoRA (Low-Rank Adaptation) fine-tuning of a 7B-parameter Qwen2 backbone, GROK outperforms comparable 7B and 32B baselines on both report quality and fine-grained clinical metrics, and even exceeds OpenAI o3. Code and data are publicly available in the GROK repository.
- Abstract(参考訳): MLLM(Multimodal large language model)は多様なデータモダリティを統合することを約束するが、LLaVA-Medのような現在の医療適応は、カラーファンドス写真(CFP)と光コヒーレンス断層撮影(OCT)の相乗効果を完全に活用できず、定量バイオマーカーの限定的な解釈性を提供する。
CFP, OCT, テキストを共同処理し, 眼疾患, 全身疾患の診断を行う, 多モード多言語モデルであるGROKを紹介した。
GROKは、知識ガイドインストラクション生成、CLIP-Style OCT-Biomarkerアライメント、Supervised Instruction Fine-Tuningの3つのコアモジュールから構成される。
提案手法を評価するために,6つの疾患カテゴリと3つのタスク,すなわちマクロレベルの診断分類,報告生成品質,生成した思考の連鎖の詳細な臨床評価を対象とする眼科診断ベンチマークを提案する。
実験によると、7BパラメータQwen2バックボーンのLoRA(Low-Rank Adaptation)微細調整のみで、GROKは報告品質と詳細な臨床指標の両方で7Bと32Bのベースラインを上回り、OpenAI o3を超えている。
コードとデータはGROKリポジトリで公開されている。
関連論文リスト
- Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models [0.15558822250482188]
大規模臨床データの手動解析による疾患の相互関係の同定は、労働集約的であり、主観的であり、専門家の意見の不一致を招く。
本研究は,MIMIC-IV EHRのICD-10コードシーケンスとICD-10コードの全セットの2つのデータソースに基づいて,疾患関係を明らかにするための7つのアプローチを評価する。
i)実際の臨床データを用いた統計的共起解析とマスク言語モデリング(MLM)アプローチ,(ii)ドメイン固有のBERT変種,(iii)汎用BERTと文書検索。
論文 参考訳(メタデータ) (2025-10-06T15:09:39Z) - Refine Medical Diagnosis Using Generation Augmented Retrieval and Clinical Practice Guidelines [16.56254046507092]
GARMLE-Gは、医療用言語モデルの出力を権威的ガイドラインに根拠づけた、世代別検索フレームワークである。
従来のRetrieval-Augmented Generationベースのアプローチとは異なり、GARMLE-Gは権威的なガイドラインコンテンツを直接検索することで幻覚のない出力を可能にする。
高血圧診断のためのプロトタイプシステムを開発し, 検索精度, 意味的関連性, 臨床ガイドラインの適合性を実証した。
論文 参考訳(メタデータ) (2025-06-22T11:31:13Z) - Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology [0.0]
我々は、高度にバランスの取れない、アウト・オブ・ディストリビューションな医療データセットに適用した場合、BiomedCLIPの限界を分析する。
ゼロショット設定下でのモデルは,すべてのラベルを過度に予測し,精度の低下とクラス間分離性に繋がることを示す。
我々は、現実の環境で信頼性と適用性を高めるために、モデルの慎重な適応の必要性を強調します。
論文 参考訳(メタデータ) (2025-06-17T02:59:42Z) - Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。
本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。
我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-04-22T14:17:51Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。