論文の概要: SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
- arxiv url: http://arxiv.org/abs/2510.03160v1
- Date: Fri, 03 Oct 2025 16:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.488527
- Title: SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus
- Title(参考訳): SpineBench:SpineMed-450k Corpusによる臨床応用レベルのベンチマーク
- Authors: Ming Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan,
- Abstract要約: 松葉病は全世界で6億1919万人に影響を及ぼし、障害の主な原因となっている。
SpineMedは、脊椎外科医を実践するエコシステムである。
SpineMed-450kは、脊椎レベルの推論のために明示的に設計された最初の大規模データセットである。
- 参考スコア(独自算出の注目度): 39.664918145306366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spine disorders affect 619 million people globally and are a leading cause of disability, yet AI-assisted diagnosis remains limited by the lack of level-aware, multimodal datasets. Clinical decision-making for spine disorders requires sophisticated reasoning across X-ray, CT, and MRI at specific vertebral levels. However, progress has been constrained by the absence of traceable, clinically-grounded instruction data and standardized, spine-specific benchmarks. To address this, we introduce SpineMed, an ecosystem co-designed with practicing spine surgeons. It features SpineMed-450k, the first large-scale dataset explicitly designed for vertebral-level reasoning across imaging modalities with over 450,000 instruction instances, and SpineBench, a clinically-grounded evaluation framework. SpineMed-450k is curated from diverse sources, including textbooks, guidelines, open datasets, and ~1,000 de-identified hospital cases, using a clinician-in-the-loop pipeline with a two-stage LLM generation method (draft and revision) to ensure high-quality, traceable data for question-answering, multi-turn consultations, and report generation. SpineBench evaluates models on clinically salient axes, including level identification, pathology assessment, and surgical planning. Our comprehensive evaluation of several recently advanced large vision-language models (LVLMs) on SpineBench reveals systematic weaknesses in fine-grained, level-specific reasoning. In contrast, our model fine-tuned on SpineMed-450k demonstrates consistent and significant improvements across all tasks. Clinician assessments confirm the diagnostic clarity and practical utility of our model's outputs.
- Abstract(参考訳): 松色障害は全世界で6億1919万人に影響を及ぼし、障害の主な原因となっているが、レベルアウェアでマルチモーダルなデータセットが不足しているため、AIによる診断は制限されている。
脊椎疾患の臨床的意思決定には、X線、CT、MRIの特定の脊椎レベルでの高度な推論が必要である。
しかし、トレーサブルで臨床応用された命令データや標準化された脊椎特異的なベンチマークがないため、進歩は制限されている。
これを解決するために、脊椎外科医を実践するエコシステムであるSpineMedを紹介した。
SpineMed-450kは、画像モダリティを横断する脊椎レベルの推論のために設計された最初の大規模データセットで、45万以上のインストラクションインスタンスがある。
SpineMed-450kは、教科書、ガイドライン、オープンデータセット、約1,000の未確認の病院ケースを含む様々なソースからキュレーションされ、2段階のLLM生成法(ドラフトとリビジョン)で高品質でトレーサブルなデータ、質問応答、マルチターンコンサルティング、レポート生成を確実にするために、クリニアン・イン・ザ・ループのパイプラインを使用する。
SpineBenchは、レベル同定、病理診断、手術計画を含む、臨床的に健全な軸に関するモデルを評価する。
SpineBench上の最近の大規模視覚言語モデル(LVLM)の包括的評価により, きめ細粒度, レベル固有推論における系統的弱点が明らかとなった。
対照的に、SpineMed-450kで微調整されたモデルでは、すべてのタスクにおいて一貫性と大幅な改善が示されています。
臨床評価では,本モデルのアウトプットの診断精度と実用性を確認した。
関連論文リスト
- Beyond Classification Accuracy: Neural-MedBench and the Need for Deeper Reasoning Benchmarks [21.203358914772465]
近年の視覚言語モデル (VLM) の進歩は, 標準医学ベンチマークにおいて顕著な性能を発揮しているが, その真の臨床推論能力は未だ不明である。
我々はニューラルメドベンチ(Neural-MedBench)について紹介する。これは、神経学におけるマルチモーダルな臨床推論の限界を調査するためのコンパクトで推論集約的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T12:20:01Z) - Revolutionizing Precise Low Back Pain Diagnosis via Contrastive Learning [0.3499870393443268]
腰痛は世界中の何百万もの人に影響を与え、堅牢な診断モデルの必要性を喚起する。
我々は,腰椎MRIスキャンとそれに対応する放射線学的記述との整合性を確保するために,コントラスト言語画像事前訓練を利用する新しいフレームワークであるLumbarCLIPを提案する。
論文 参考訳(メタデータ) (2025-09-25T06:52:25Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - A Federated Learning Framework for Handling Subtype Confounding and Heterogeneity in Large-Scale Neuroimaging Diagnosis [22.017120252054625]
本稿では,ニューロイメージングCADシステムに適した新しいフェデレーション学習フレームワークを提案する。
私たちのアプローチには、最も適切なローカルモデルにサンプルをルーティングする動的ナビゲーションモジュールが含まれています。
1300名以上のMDD患者のfMRIデータと1100名の健常者を対象とした。
論文 参考訳(メタデータ) (2025-08-08T07:19:49Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。
NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。
年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-11T23:51:01Z) - PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks [39.97710183184273]
本稿では,300Kの病理スライドからなるデータセット上で,自己教師型学習を通じて学習した多種多様な病理基盤モデルPathOrchestraを提案する。
このモデルは、61のプライベートデータセットと51のパブリックデータセットを組み合わせて、112の臨床的タスクで厳格に評価された。
PathOrchestraは27,755のWSIと9,415,729のROIで例外的なパフォーマンスを示し、47のタスクで0.950以上の精度を達成した。
論文 参考訳(メタデータ) (2025-03-31T17:28:02Z) - SpineOne: A One-Stage Detection Framework for Degenerative Discs and
Vertebrae [54.751251046196494]
SpineOneと呼ばれる一段階検出フレームワークを提案し、MRIスライスから変性椎骨と椎骨を同時に局在化・分類する。
1)キーポイントの局所化と分類を促進するためのキーポイント・ヒートマップの新しい設計、2)ディスクと脊椎の表現をよりよく区別するためのアテンション・モジュールの使用、3)後期訓練段階における複数の学習目標を関連付けるための新しい勾配誘導客観的アソシエーション機構。
論文 参考訳(メタデータ) (2021-10-28T12:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。