論文の概要: Towards Scalable Language-Image Pre-training for 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2505.21862v1
- Date: Wed, 28 May 2025 01:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.349668
- Title: Towards Scalable Language-Image Pre-training for 3D Medical Imaging
- Title(参考訳): 3次元医用イメージングのためのスケーラブルな言語画像事前学習に向けて
- Authors: Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon,
- Abstract要約: 本稿では,3次元医用画像作成のためのスケーラブルな事前訓練フレームワークHLIPについて,階層的注意を喚起する。
HLIPは、放射線学データの自然な階層(スライス、スキャン、研究)にインスパイアされた、軽量な階層的注意機構を採用している。
脳MRIで313万スキャン、頭部CTで144万スキャンで240万スキャンされた220万の患者で訓練されたHLIPは、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 49.18894445671976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-image pre-training has demonstrated strong performance in 2D medical imaging, but its success in 3D modalities such as CT and MRI remains limited due to the high computational demands of volumetric data, which pose a significant barrier to training on large-scale, uncurated clinical studies. In this study, we introduce Hierarchical attention for Language-Image Pre-training (HLIP), a scalable pre-training framework for 3D medical imaging. HLIP adopts a lightweight hierarchical attention mechanism inspired by the natural hierarchy of radiology data: slice, scan, and study. This mechanism exhibits strong generalizability, e.g., +4.3% macro AUC on the Rad-ChestCT benchmark when pre-trained on CT-RATE. Moreover, the computational efficiency of HLIP enables direct training on uncurated datasets. Trained on 220K patients with 3.13 million scans for brain MRI and 240K patients with 1.44 million scans for head CT, HLIP achieves state-of-the-art performance, e.g., +32.4% balanced ACC on the proposed publicly available brain MRI benchmark Pub-Brain-5; +1.4% and +6.9% macro AUC on head CT benchmarks RSNA and CQ500, respectively. These results demonstrate that, with HLIP, directly pre-training on uncurated clinical datasets is a scalable and effective direction for language-image pre-training in 3D medical imaging. The code is available at https://github.com/Zch0414/hlip
- Abstract(参考訳): 言語画像の事前訓練は2次元医用画像において高い性能を示したが、CTやMRIなどの3Dモダリティの成功は、大規模で未計算な臨床研究におけるトレーニングの障壁となるボリュームデータの高い計算要求のために制限されている。
本研究では,3次元医用画像撮影のためのスケーラブルな事前訓練フレームワークHLIPについて,階層的な注意を喚起する。
HLIPは、放射線学データの自然な階層(スライス、スキャン、研究)にインスパイアされた、軽量な階層的注意機構を採用している。
このメカニズムは、Rad-ChestCTベンチマークでCT-RATEで事前トレーニングされたときに、強い一般化性を示す。
さらに、HLIPの計算効率は未計算データセットの直接トレーニングを可能にする。
脳MRIの3.13万スキャンと、頭部CTの1.44万スキャンを持つ240万Kの220万の患者で訓練されたHLIPは、提案されているパブリックな脳MRIベンチマークであるPub-Brain-5のACCと、頭部CTベンチマークのRSNAとCQ500で+6.9%のマクロAUCをそれぞれ取得する。
これらの結果から,HLIPでは,未修正臨床データセットを直接事前トレーニングすることは,3次元医用画像における言語画像事前トレーニングのスケーラブルかつ効果的な方向であることが示唆された。
コードはhttps://github.com/Zch0414/hlipで公開されている。
関連論文リスト
- Triad: Vision Foundation Model for 3D Magnetic Resonance Imaging [3.7942449131350413]
3次元MRIの視覚基礎モデルであるTriadを提案する。
Triadは131,170個のMRIボリュームから堅牢な表現を学ぶために広く使われているオートエンコーダアーキテクチャを採用している。
臓器・腫瘍区分,臓器・癌分類,医用画像登録という3つの課題にまたがってTriadを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:31:52Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Developing Generalist Foundation Models from a Multimodal Dataset for 3D Computed Tomography [10.110878689623961]
我々は3次元医用画像と対応するテキストレポートとをマッチングする最初のデータセットであるCT-RATEを紹介する。
我々はCTに焦点を当てたコントラスト言語画像事前学習フレームワークであるCT-CLIPを開発した。
我々は3次元胸部CTボリュームのための視覚言語基礎チャットモデルであるCT-CHATを作成する。
論文 参考訳(メタデータ) (2024-03-26T16:19:56Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Slice-level Detection of Intracranial Hemorrhage on CT Using Deep
Descriptors of Adjacent Slices [0.31317409221921133]
そこで本研究では,隣接するスライスのディスクリプタに基づいて,CTスキャンでエンフスライスレベルの分類器を訓練する新しい手法を提案する。
我々は、RSNA頭蓋内出血データセットの課題における、最高のパフォーマンスソリューションの上位4%において、単一のモデルを得る。
提案手法は汎用的であり,MRIなどの他の3次元診断タスクにも適用可能である。
論文 参考訳(メタデータ) (2022-08-05T23:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。