Fugu-MT 論文翻訳(概要): NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders

論文の概要: NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders

arxiv url: http://arxiv.org/abs/2603.24846v1
Date: Wed, 25 Mar 2026 22:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.006431
Title: NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders
Title（参考訳）: NeuroVLM-Bench:神経疾患における臨床推論のための視覚許容大言語モデルの評価
Authors: Katarina Trojachanec Dineva, Stefan Andonov, Ilinka Ivanoska, Ivan Kitanovski, Sasho Gramatikov, Tamara Kostova, Monika Simjanoska Misheva, Kostadin Mishev,
Abstract要約: 本稿では2次元ニューロイメージングのための視覚対応大規模言語モデルのベンチマーク研究を行う。我々は,多発性硬化症,脳卒中,脳腫瘍,その他の異常,正常なコントロールを対象とするMRIおよびCTデータセットを用いて検討した。腫瘍分類は最も信頼性の高い課題として現れ、脳卒中は適度に解決できるが、多発性硬化症や稀な異常は依然として困難である。
参考スコア（独自算出の注目度）: 0.46375328256275944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in multimodal large language models enable new possibilities for image-based decision support. However, their reliability and operational trade-offs in neuroimaging remain insufficiently understood. We present a comprehensive benchmarking study of vision-enabled large language models for 2D neuroimaging using curated MRI and CT datasets covering multiple sclerosis, stroke, brain tumors, other abnormalities, and normal controls. Models are required to generate multiple outputs simultaneously, including diagnosis, diagnosis subtype, imaging modality, specialized sequence, and anatomical plane. Performance is evaluated across four directions: discriminative classification with abstention, calibration, structured-output validity, and computational efficiency. A multi-phase framework ensures fair comparison while controlling for selection bias. Across twenty frontier multimodal models, the results show that technical imaging attributes such as modality and plane are nearly solved, whereas diagnostic reasoning, especially subtype prediction, remains challenging. Tumor classification emerges as the most reliable task, stroke is moderately solvable, while multiple sclerosis and rare abnormalities remain difficult. Few-shot prompting improves performance for several models but increases token usage, latency, and cost. Gemini-2.5-Pro and GPT-5-Chat achieve the strongest overall diagnostic performance, while Gemini-2.5-Flash offers the best efficiency-performance trade-off. Among open-weight architectures, MedGemma-1.5-4B demonstrates the most promising results, as under few-shot prompting, it approaches the zero-shot performance of several proprietary models, while maintaining perfect structured output. These findings provide practical insights into performance, reliability, and efficiency trade-offs, supporting standardized evaluation of multimodal LLMs in neuroimaging.
Abstract（参考訳）: マルチモーダルな大規模言語モデルの最近の進歩は、画像ベースの意思決定支援に新たな可能性をもたらす。しかし、ニューロイメージングにおける信頼性と運用上のトレードオフは未だに十分に理解されていない。我々は、複数の硬化症、脳卒中、脳腫瘍、その他の異常、正常な制御を含むMRIおよびCTデータセットを用いて、2Dニューロイメージングのための視覚対応大言語モデルに関する総合的なベンチマーク研究を行った。モデルは、診断、診断サブタイプ、画像モダリティ、特殊シーケンス、解剖学的平面を含む複数の出力を同時に生成する必要がある。性能は, 禁忌, 校正, 構造化出力妥当性, 計算効率の4つの方向から評価される。多相フレームワークは、選択バイアスを制御しながら公正な比較を保証する。 20のフロンティア・マルチモーダルモデルにおいて、モダリティや平面などの技術的イメージング特性はほとんど解決されていないが、診断的推論、特にサブタイプ予測は依然として困難である。腫瘍分類は最も信頼性の高い課題として現れ、脳卒中は適度に解決できるが、多発性硬化症や稀な異常は依然として困難である。いくつかのモデルのパフォーマンスは向上するが、トークンの使用量、レイテンシ、コストは向上する。 Gemini-2.5-ProとGPT-5-Chatは診断性能が最も優れ、Gemini-2.5-Flashは最良の効率と性能のトレードオフを提供する。オープンウェイトアーキテクチャの中では、MedGemma-1.5-4Bが最も有望な結果を示している。これらの知見は, 性能, 信頼性, 効率のトレードオフに関する実践的な洞察を与え, 神経イメージングにおけるマルチモーダルLSMの標準化評価を支援する。

関連論文リスト

Dual Distillation for Few-Shot Anomaly Detection [41.127862518102425]
異常検出はコンピュータビジョンにおいて重要な課題であり、医用画像に深く影響している。 D$2$4FADは,数発の異常検出のための新しい二重蒸留フレームワークである。本手法は,少数の基準画像のみを用いて,未確認タスクにおける異常を同定する。
論文参考訳（メタデータ） (2026-03-02T10:38:19Z)
A multimodal vision foundation model for generalizable knee pathology [40.03838145472935]
筋骨格障害は、医療画像の正確な解釈に対する緊急の要求である。現在の整形外科における人工知能のアプローチは、タスク固有の教師あり学習パラダイムに依存している。筋骨格病理学に最適化されたマルチモーダル視覚基盤モデルOrthoFoundationを紹介する。
論文参考訳（メタデータ） (2026-01-26T08:14:51Z)
MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文参考訳（メタデータ） (2025-09-08T12:34:15Z)
Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics [10.703307148153433]
網膜画像応用におけるDINOv2とDINOv3の適応性の評価を行った。 RETFound-DINOv2は、これらの一般的な基礎モデルにおいて、眼球運動の検出と眼球運動において一貫して優れる。
論文参考訳（メタデータ） (2025-09-03T15:48:57Z)
Can Large Language Models Challenge CNNs in Medical Image Analysis? [3.1406146587437904]
本研究では,医療診断画像の正確な分類を目的としたマルチモーダルAIフレームワークを提案する。提案システムは、畳み込みニューラルネットワーク(CNN)と異なる大言語モデル(LLM)の強みを比較する。
論文参考訳（メタデータ） (2025-05-29T14:48:09Z)
Mind Your Vision: Multimodal Estimation of Refractive Disorders Using Electrooculography and Eye Tracking [12.016546264209536]
本研究では,2つの眼球運動記録技術 (EOG) とビデオベースの眼球追跡技術を用いて屈折率を推定する受動的手法について検討した。我々は長短期記憶(LSTM)モデルを訓練し、屈折パワーを単眼(EOGまたはアイトラッキング)とマルチモーダル構成から分類した。その結果,マルチモーダルモデルは単調モデルよりも常に優れており,両方の設定で平均精度が最も高いことがわかった。
論文参考訳（メタデータ） (2025-05-24T06:03:45Z)
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-07-08T09:08:42Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
On Sensitivity and Robustness of Normalization Schemes to Input Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。 DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文参考訳（メタデータ） (2023-06-23T03:09:03Z)
Detecting Dementia from Speech and Transcripts using Transformers [0.0]
アルツハイマー病(英語: Alzheimer's disease, AD)は、治療法がないため早期に診断されない場合、日常生活に深刻な影響を与える神経変性疾患である。現在の研究は、自然発声から認知症を診断することに焦点を当てている。
論文参考訳（メタデータ） (2021-10-27T21:00:01Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。