論文の概要: Towards Scalable Language-Image Pre-training for 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2505.21862v2
- Date: Thu, 25 Sep 2025 21:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.403521
- Title: Towards Scalable Language-Image Pre-training for 3D Medical Imaging
- Title(参考訳): 3次元医用イメージングのためのスケーラブルな言語画像事前学習に向けて
- Authors: Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon,
- Abstract要約: 本研究では, 放射線学データの内在的階層(スライス, スキャン, 研究)にインスパイアされた新しい階層的注意機構を導入する。
脳MRIで313万スキャン、頭部CTで144万スキャンで240万スキャンで220万の研究で訓練されたHLIPは、最先端のパフォーマンスを実現している。
これらの結果から,HLIPでは,未修正臨床データセットを直接事前トレーニングすることは,3次元医用画像における言語画像事前トレーニングのスケーラブルかつ効果的な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 40.290715610473406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability of current language-image pre-training for 3D medical imaging, such as CT and MRI, is constrained by the need for radiologists to manually curate raw clinical studies. In this work, we pioneer pre-training directly on uncurated studies, which both aligns more closely with the radiologist's workflow and provides a natural path to scalability. However, the unique structure of such data presents new challenges for existing model architectures, which were originally designed for 2D slices or single 3D scans. To address this, we introduce a novel hierarchical attention mechanism inspired by the intrinsic hierarchy of radiology data: slice, scan, and study. We denote our framework as Hierarchical attention for Language-Image Pre-training (HLIP). Trained on 220K studies with 3.13 million scans for brain MRI and 240K studies with 1.44 million scans for head CT, HLIP achieves state-of-the-art performance, e.g., +10.5% balanced ACC on the proposed publicly available brain MRI benchmark Pub-Brain-5; +8.3% and +1.7% macro AUC on head CT benchmarks CQ500 and RSNA, respectively. HLIP also exhibits strong generalizability on existing 3D medical language-image pre-training benchmarks, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when pre-trained on CT-RATE. These results demonstrate that, with HLIP, directly pre-training on uncurated clinical datasets is a scalable and effective direction for language-image pre-training in 3D medical imaging. The code is available at https://github.com/Zch0414/hlip.
- Abstract(参考訳): CTやMRIなどの3次元医用画像撮影のための言語画像事前訓練のスケーラビリティは、放射線医が手動で生臨床研究をキュレートする必要性によって制限されている。
この研究は、放射線学者のワークフローとより密接に一致し、スケーラビリティへの自然なパスを提供する。
しかし、そのようなデータのユニークな構造は、2Dスライスや1枚の3Dスキャンのために設計された既存のモデルアーキテクチャに新しい課題をもたらす。
そこで本研究では,放射線学データの固有の階層構造であるスライス,スキャン,研究に着想を得た新しい階層的注意機構を提案する。
我々はこのフレームワークを言語画像事前学習(HLIP)の階層的注意(hierarchical attention)と表現する。
HLIPは脳MRIの3.13万スキャンと240万スキャン、頭部CTの1.44万スキャンで220万の研究に基づいて訓練され、提案されている脳MRIベンチマークPub-Brain-5でそれぞれ10.5%のバランスのとれたACC、CQ500とRSNAで1.7%のマクロAUCを達成している。
HLIPはまた、CT-RATEで事前トレーニングされた時に、Rad-ChestCTベンチマークで既存の3D医療用言語画像の事前トレーニングベンチマークである+4.3%マクロAUCに強い一般化性を示す。
これらの結果から,HLIPでは,未修正臨床データセットを直接事前トレーニングすることは,3次元医用画像における言語画像事前トレーニングのスケーラブルかつ効果的な方向であることが示唆された。
コードはhttps://github.com/Zch0414/hlipで公開されている。
関連論文リスト
- Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging [3.7942449131350413]
3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。
臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:31:52Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [10.110878689623961]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Video4MRI: An Empirical Study on Brain Magnetic Resonance Image
Analytics with CNN-based Video Classification Frameworks [60.42012344842292]
3次元CNNモデルが磁気共鳴画像(MRI)解析の分野を支配している。
本稿では,アルツハイマー病とパーキンソン病の認識の4つのデータセットを実験に利用した。
効率の面では、ビデオフレームワークは3D-CNNモデルよりも5%から11%、トレーニング可能なパラメータは50%から66%少ない。
論文 参考訳(メタデータ) (2023-02-24T15:26:31Z) - Slice-level Detection of Intracranial Hemorrhage on CT Using Deep
Descriptors of Adjacent Slices [0.31317409221921133]
そこで本研究では,隣接するスライスのディスクリプタに基づいて,CTスキャンでエンフスライスレベルの分類器を訓練する新しい手法を提案する。
我々は、RSNA頭蓋内出血データセットの課題における、最高のパフォーマンスソリューションの上位4%において、単一のモデルを得る。
提案手法は汎用的であり,MRIなどの他の3次元診断タスクにも適用可能である。
論文 参考訳(メタデータ) (2022-08-05T23:20:37Z) - Self-supervised 3D anatomy segmentation using self-distilled masked
image transformer (SMIT) [2.7298989068857487]
自己教師型学習は、畳み込みネットワークを用いた医用画像のセグメンテーションに成功している。
我々は、我々のアプローチがより正確で、他のプリテキストタスクよりも微調整データセットを少なくする必要があることを示した。
論文 参考訳(メタデータ) (2022-05-20T17:55:14Z) - Medical Transformer: Universal Brain Encoder for 3D MRI Analysis [1.6287500717172143]
既存の3Dベースの手法は、トレーニング済みのモデルを下流のタスクに転送している。
彼らは3D医療イメージングのためのモデルを訓練するために大量のパラメータを要求します。
本稿では,2次元画像スライス形式で3次元容積画像を効果的にモデル化する,メディカルトランスフォーマーと呼ばれる新しい伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:21Z) - Deep Q-Network-Driven Catheter Segmentation in 3D US by Hybrid
Constrained Semi-Supervised Learning and Dual-UNet [74.22397862400177]
本稿では,教師付き学習手法よりも少ないアノテーションを要求できる新しいカテーテルセグメンテーション手法を提案する。
提案手法では,Voxelレベルのアノテーションを避けるために,深層Q学習を事前局所化ステップとみなす。
検出されたカテーテルでは、パッチベースのDual-UNetを使用してカテーテルを3Dボリュームデータに分割する。
論文 参考訳(メタデータ) (2020-06-25T21:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。