論文の概要: MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting
- arxiv url: http://arxiv.org/abs/2509.03800v1
- Date: Thu, 04 Sep 2025 01:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.006552
- Title: MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting
- Title(参考訳): MedVista3D:3次元CT像の検出・理解・報告における診断誤差低減のための視覚言語モデリング
- Authors: Yuheng Li, Yenho Chen, Yuxiang Lai, Jike Zhong, Vanessa Wildman, Xiaofeng Yang,
- Abstract要約: 臨床における放射線診断の誤り-読影誤り、意図的失明、コミュニケーションの失敗--の既往である。
MedVista3Dは3次元CT解析のためのマルチスケールのセマンティック・エンリッチ・ビジョン言語事前学習フレームワークである。
- 参考スコア(独自算出の注目度): 17.609935683639925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiologic diagnostic errors-under-reading errors, inattentional blindness, and communication failures-remain prevalent in clinical practice. These issues often stem from missed localized abnormalities, limited global context, and variability in report language. These challenges are amplified in 3D imaging, where clinicians must examine hundreds of slices per scan. Addressing them requires systems with precise localized detection, global volume-level reasoning, and semantically consistent natural language reporting. However, existing 3D vision-language models are unable to meet all three needs jointly, lacking local-global understanding for spatial reasoning and struggling with the variability and noise of uncurated radiology reports. We present MedVista3D, a multi-scale semantic-enriched vision-language pretraining framework for 3D CT analysis. To enable joint disease detection and holistic interpretation, MedVista3D performs local and global image-text alignment for fine-grained representation learning within full-volume context. To address report variability, we apply language model rewrites and introduce a Radiology Semantic Matching Bank for semantics-aware alignment. MedVista3D achieves state-of-the-art performance on zero-shot disease classification, report retrieval, and medical visual question answering, while transferring well to organ segmentation and prognosis prediction. Code and datasets will be released.
- Abstract(参考訳): 臨床における放射線診断の誤り-読影誤り、意図的失明、コミュニケーション障害--の既往である。
これらの問題は、しばしば、局所的な異常の欠如、グローバルコンテキストの制限、レポート言語における可変性に起因している。
これらの課題は、臨床医がスキャン毎に数百個のスライスを検査しなければならない3Dイメージングで増幅される。
それらに対処するには、正確な局所的検出、大域的なボリュームレベルの推論、意味的に一貫性のある自然言語レポートを持つシステムが必要である。
しかし、既存の3次元視覚言語モデルは、空間的推論に対する局所的言語的理解が欠如し、未計算の放射線学レポートのばらつきやノイズに悩まされているため、これら3つのニーズを全て満たすことができない。
MedVista3Dは3次元CT解析のためのマルチスケールのセマンティック・エンリッチ・ビジョン言語事前学習フレームワークである。
MedVista3Dは、関節疾患の検出と全体的な解釈を可能にするために、全巻のコンテキスト内で詳細な表現学習のための局所的およびグローバルな画像テキストアライメントを実行する。
レポートの多様性に対処するため、言語モデル書き換えを適用し、セマンティックマッチングバンクを導入し、セマンティック・アウェア・アライメント(セマンティック・アライメント)を実現する。
MedVista3Dは、臓器セグメント化と予後予測にうまく移行しながら、ゼロショット疾患分類、レポート検索、および医療視覚的質問応答に関する最先端のパフォーマンスを達成する。
コードとデータセットがリリースされる。
関連論文リスト
- Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant [11.187690318227514]
RCMedは、入力と出力の両方におけるマルチモーダルアライメントを改善するフルスタックAIアシスタントである。
不規則な病変と微妙な解剖学的境界の文脈化において最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-05-06T10:00:08Z) - MG-3D: Multi-Grained Knowledge-Enhanced 3D Medical Vision-Language Pre-training [7.968487067774351]
3次元医用画像解析は多くの臨床応用において重要である。
3次元医用画像解析では、大規模視覚言語による事前訓練がまだ検討されていない。
大規模データ(47.1K)に基づいて事前学習したMG-3Dを提案する。
論文 参考訳(メタデータ) (2024-12-08T09:45:59Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Intensive Vision-guided Network for Radiology Report Generation [22.030289124516326]
医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
論文 参考訳(メタデータ) (2024-02-06T06:46:46Z) - T3D: Advancing 3D Medical Vision-Language Pre-training by Learning Multi-View Visual Consistency [32.57915952175522]
3D医療ビジョン言語による事前トレーニングは、大規模で一般公開された3D医療画像レポートデータセットが欠如しているため、まだ探索されていない。
このギャップを埋めるために、最初の、そして最大の*public** 3Dボリュームレポートデータセットである*CT-3Dlots**を紹介します。
提案する**T3D*フレームワークは,単純なCLIPスタイルのアライメントを超えて,3次元医用画像の理解を促進する。
以上の結果から,T3D は既存の vSSL やマルチモーダル手法を一貫して上回り,ゼロショットや微調整能力に優れていた。
論文 参考訳(メタデータ) (2023-12-03T23:03:22Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Weakly supervised one-stage vision and language disease detection using
large scale pneumonia and pneumothorax studies [9.34633748515622]
我々は,MIMIC-CXRデータセット上に,新しい放射線学者のペア境界ボックスと自然言語アノテーションを提案する。
また、弱教師付きトランスフォーマー層選択型ワンステージデュアルヘッド検出アーキテクチャ(LITERATI)を提案する。
アーキテクチャの変更は、3つの障害に対処する - 教師付き視覚と言語検出を弱教師付きで実装し、臨床参照表現自然言語情報を取り入れ、マップ確率の高い忠実度検出を生成する。
論文 参考訳(メタデータ) (2020-07-31T00:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。