論文の概要: 3DReasonKnee: Advancing Grounded Reasoning in Medical Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.20967v1
- Date: Thu, 23 Oct 2025 19:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.309113
- Title: 3DReasonKnee: Advancing Grounded Reasoning in Medical Vision Language Models
- Title(参考訳): 3DReasonKnee:医療ビジョン言語モデルにおける接地推論の促進
- Authors: Sraavya Sambara, Sung Eun Kim, Xiaoman Zhang, Luyang Luo, Shreya Johri, Mohammed Baharoon, Du Hyun Ro, Pranav Rajpurkar,
- Abstract要約: 現在のビジョン・ランゲージ・モデル(VLM)は、解剖学的領域を3Dの医療画像にグラウンド・バイ・ステップで解析するのに苦労している。
既存の3Dデータセットはローカライズラベルを提供するが、この“地下推論”機能をサポートしていない。
医用画像のための最初の3Dグラウンド推論データセットである3DReasonKneeを紹介する。
- 参考スコア(独自算出の注目度): 8.67489471170441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision-Language Models (VLMs) struggle to ground anatomical regions in 3D medical images and reason about them in a step-by-step manner, a key requirement of real-world diagnostic assessment. This ability is essential for aligning model outputs with the diagnostic workflows clinicians use in practice, enabling trustworthy clinician-AI collaboration. Existing 3D datasets provide localization labels, but none support this "grounded reasoning" ability. To address this gap, we introduce 3DReasonKnee, the first 3D grounded reasoning dataset for medical images, which provides 494k high-quality quintuples derived from 7,970 3D knee MRI volumes. Each quintuple includes: (1) the 3D MRI volume, (2) a diagnostic question targeting a specific anatomical region (3) a 3D bounding box localizing the relevant anatomical structures, (4) clinician-generated diagnostic reasoning steps that explicitly detail the 3D reasoning process, and (5) structured severity assessments for the relevant anatomical region. The creation and validation of 3DReasonKnee, involving over 450 hours of expert clinician time for manually segmenting MRIs and generating reasoning chains, ensures its superior quality and clinical relevance. We establish ReasonKnee-Bench to evaluate localization and diagnostic accuracy, providing insight into VLM ability to perform grounding and severity assessment across anatomical regions and diagnostic inquiries. We benchmark five state-of-the-art VLMs, providing baseline performance for ReasonKnee-Bench. By providing this unique resource of expert-annotated 3D reasoning pathways, 3DReasonKnee serves as a repository of orthopedic surgeons' diagnostic expertise and offers a vital testbed for advancing multimodal medical AI systems towards 3D, clinically aligned, localized decision-making capabilities. The dataset can be found in: https://huggingface.co/datasets/rajpurkarlab/3DReasonKnee
- Abstract(参考訳): 現在のビジョンランゲージモデル(VLM)は、3D医療画像において解剖学的領域を画定し、それらをステップバイステップで推論するのに苦労している。
この能力は、モデルアウトプットを臨床医が実際に使用する診断ワークフローと整合させることに不可欠であり、信頼できる臨床医とAIのコラボレーションを可能にする。
既存の3Dデータセットはローカライズラベルを提供するが、この“地下推論”機能をサポートしていない。
このギャップに対処するため、3DReasonKneeは、医療画像のための最初の3D基底推論データセットであり、7,970個の膝MRIボリュームから494kの高品質なクインタプルを提供する。
各クインタプルは,(1)3次元MRIボリューム,(2)特定の解剖学的領域を対象とする診断質問,(3)関連解剖学的構造を局所化する3次元境界ボックス,(4)関連解剖学的領域に対する構造的重症度評価を含む。
3DReasonKneeの作成と検証は、手動でMRIをセグメンテーションし、推論チェーンを生成するために450時間以上の専門医の時間を要し、その優れた品質と臨床関連性を保証する。
我々は,局所化と診断の精度を評価するためにReasonKnee-Benchを確立し,解剖学的領域をまたいだ基底および重度評価と診断検査を行うVLM能力について考察した。
我々は5つの最先端VLMをベンチマークし、ReasonKnee-Benchのベースライン性能を提供する。
3DReasonKneeは、専門的な3D推論経路のユニークなリソースを提供することによって、整形外科医の診断専門知識のリポジトリとして機能し、マルチモーダルな医療AIシステムを3D、臨床的に整列し、局所的な意思決定能力に向けて前進するための重要なテストベッドを提供する。
データセットは以下の通りである。 https://huggingface.co/datasets/rajpurkarlab/3DReasonKnee
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering [8.185551155349241]
Vision-Language Models (VLMs) は様々な2次元視覚タスクにおいて有望であるが、3次元臨床診断への準備が整っていない。
腹部腫瘍を対象とする診断的視覚質問応答ベンチマークであるDeepTumorVQAについて検討した。
17の公開データセットから9,262のCTボリューム(3.7Mスライス)と、認識、計測、視覚的推論、医学的推論の4つのカテゴリにまたがる395Kの専門家レベルの質問で構成されている。
論文 参考訳(メタデータ) (2025-05-25T00:50:15Z) - Describe Anything in Medical Images [32.785523415007]
医用画像の領域別キャプションに大規模視覚言語モデルを活用する,初の包括的フレームワークであるMedDAMを提案する。
MedDAMは特定の画像モダリティに合わせて医療専門家が設計したプロンプトを採用し、堅牢な評価ベンチマークを確立する。
本ベンチマークは,属性レベル検証タスクによる臨床事実性に着目し,MedDAMと他の大規模視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-05-09T05:45:31Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - Knowledge-enhanced Visual-Language Pre-training on Chest Radiology
Images [40.52487429030841]
胸部X線と放射線検査を用いた視力監督前訓練のための知識強調型自動診断(KAD)を提案する。
我々は、4つの外部X線データセット上でKADを評価し、そのゼロショット性能が完全言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:53:10Z) - A unified 3D framework for Organs at Risk Localization and Segmentation
for Radiation Therapy Planning [56.52933974838905]
現在の医療ワークフローは、OAR(Organs-at-risk)のマニュアル記述を必要とする
本研究は,OARローカライゼーション・セグメンテーションのための統合された3Dパイプラインの導入を目的とする。
提案手法は医用画像に固有の3Dコンテキスト情報の活用を可能にする。
論文 参考訳(メタデータ) (2022-03-01T17:08:41Z) - Simulating Realistic MRI variations to Improve Deep Learning model and
visual explanations using GradCAM [0.0]
修正されたHighRes3DNetモデルを用いて、脳MRIボリュームランドマーク検出問題を解く。
Grad-CAMは、モデルがフォーカスしている領域を示す粗いローカライゼーションマップを生成する。
論文 参考訳(メタデータ) (2021-11-01T11:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。