論文の概要: SpineBench: Benchmarking Multimodal LLMs for Spinal Pathology Analysis
- arxiv url: http://arxiv.org/abs/2510.12267v1
- Date: Tue, 14 Oct 2025 08:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.246424
- Title: SpineBench: Benchmarking Multimodal LLMs for Spinal Pathology Analysis
- Title(参考訳): SpineBench: 脊椎疾患解析のためのマルチモーダルLLMのベンチマーク
- Authors: Chenghanyu Zhang, Zekun Li, Peipei Li, Xing Cui, Shuhan Xia, Weixiang Yan, Yiqiao Zhang, Qianyu Zhuang,
- Abstract要約: 脊髄領域におけるマルチモーダル言語モデル(MLLM)の評価のためのベンチマークであるSpineBenchを紹介する。
SpineBenchは、40,263の脊椎画像から64,878のQAペアで構成され、2つの重要な臨床的タスクを通じて11の脊髄疾患をカバーしている。
SpineBenchは、オープンソースの脊椎疾患データセットからイメージラベルペアを統合し、標準化することによって構築される。
- 参考スコア(独自算出の注目度): 10.36110941054643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing integration of Multimodal Large Language Models (MLLMs) into the medical field, comprehensive evaluation of their performance in various medical domains becomes critical. However, existing benchmarks primarily assess general medical tasks, inadequately capturing performance in nuanced areas like the spine, which relies heavily on visual input. To address this, we introduce SpineBench, a comprehensive Visual Question Answering (VQA) benchmark designed for fine-grained analysis and evaluation of MLLMs in the spinal domain. SpineBench comprises 64,878 QA pairs from 40,263 spine images, covering 11 spinal diseases through two critical clinical tasks: spinal disease diagnosis and spinal lesion localization, both in multiple-choice format. SpineBench is built by integrating and standardizing image-label pairs from open-source spinal disease datasets, and samples challenging hard negative options for each VQA pair based on visual similarity (similar but not the same disease), simulating real-world challenging scenarios. We evaluate 12 leading MLLMs on SpineBench. The results reveal that these models exhibit poor performance in spinal tasks, highlighting limitations of current MLLM in the spine domain and guiding future improvements in spinal medicine applications. SpineBench is publicly available at https://zhangchenghanyu.github.io/SpineBench.github.io/.
- Abstract(参考訳): 医療分野へのMLLM(Multimodal Large Language Models)の統合が進み、様々な医療分野におけるそれらのパフォーマンスの包括的評価が重要となる。
しかし、既存のベンチマークは主に一般的な医療タスクを評価し、視覚的な入力に大きく依存する脊椎のようなニュアンスな領域のパフォーマンスを不適切に捉えている。
そこで本稿では,脊髄領域におけるMLLMの詳細な解析と評価を目的とした総合的視覚質問応答(VQA)ベンチマークであるSpineBenchを紹介する。
SpineBenchは、40,263個の脊椎画像から64,878個のQAペアで構成され、脊髄疾患の診断と脊髄病変の局所化という2つの重要な臨床的タスクを通じて11個の脊髄疾患をカバーしている。
SpineBenchは、オープンソースの脊椎疾患データセットからイメージラベルペアを統合し、標準化することで構築され、視覚的類似性(類似しているが、同じ疾患ではない)に基づいて、各VQAペアのハードネガティブオプションに挑戦するサンプルが、現実の課題シナリオをシミュレートする。
我々はSpineBench上でのMLLMを12個評価した。
その結果、これらのモデルでは、脊椎領域における現在のMLLMの限界が強調され、脊髄医学的応用における今後の改善を導くことが判明した。
SpineBenchはhttps://zhangchenghanyu.github.io/SpineBench.github.io/で公開されている。
関連論文リスト
- SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus [39.664918145306366]
松葉病は全世界で6億1919万人に影響を及ぼし、障害の主な原因となっている。
SpineMedは、脊椎外科医を実践するエコシステムである。
SpineMed-450kは、脊椎レベルの推論のために明示的に設計された最初の大規模データセットである。
論文 参考訳(メタデータ) (2025-10-03T16:32:02Z) - SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs [49.106901743548036]
視覚言語モデル(VLM)における空間推論評価のための診断ベンチマークであるSpinBenchを提案する。
パースペクティブ・テイクは複数の認知機能を必要とするため、SpinBenchは一連のきめ細かい診断カテゴリを導入している。
結果は、強い自我中心バイアス、低い自我的理解、対称的・統語的改革の下での不整合など、体系的な弱点を明らかにしている。
論文 参考訳(メタデータ) (2025-09-29T18:48:16Z) - Revolutionizing Precise Low Back Pain Diagnosis via Contrastive Learning [0.3499870393443268]
腰痛は世界中の何百万もの人に影響を与え、堅牢な診断モデルの必要性を喚起する。
我々は,腰椎MRIスキャンとそれに対応する放射線学的記述との整合性を確保するために,コントラスト言語画像事前訓練を利用する新しいフレームワークであるLumbarCLIPを提案する。
論文 参考訳(メタデータ) (2025-09-25T06:52:25Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - A Light-weight CNN Model for Efficient Parkinson's Disease Diagnostics [1.382077805849933]
提案モデルは,時系列信号の特性を適応させるために,畳み込みニューラルネットワーク(CNN)から短期記憶(LSTM)へと変換される。
実験結果から,提案モデルでは,パラメータや操作がはるかに少ない複数の評価指標に対して,高品質な診断結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-02T09:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。