論文の概要: OCTCube: A 3D foundation model for optical coherence tomography that improves cross-dataset, cross-disease, cross-device and cross-modality analysis
- arxiv url: http://arxiv.org/abs/2408.11227v1
- Date: Tue, 20 Aug 2024 22:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 19:09:22.807998
- Title: OCTCube: A 3D foundation model for optical coherence tomography that improves cross-dataset, cross-disease, cross-device and cross-modality analysis
- Title(参考訳): OCTCube:光コヒーレンス断層撮影のための3次元基礎モデル
- Authors: Zixuan Liu, Hanwen Xu, Addie Woicik, Linda G. Shapiro, Marian Blazes, Yue Wu, Cecilia S. Lee, Aaron Y. Lee, Sheng Wang,
- Abstract要約: OCTCubeは、26,605個の3D OCTボリュームで事前訓練された3Dファンデーションモデルである。
インダクティブとクロスデータセットの両方の設定で8つの網膜疾患を予測する場合、2Dモデルよりも優れています。
また、クロスデバイス予測や、糖尿病や高血圧などの全身疾患の予測に優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 11.346324975034051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical coherence tomography (OCT) has become critical for diagnosing retinal diseases as it enables 3D images of the retina and optic nerve. OCT acquisition is fast, non-invasive, affordable, and scalable. Due to its broad applicability, massive numbers of OCT images have been accumulated in routine exams, making it possible to train large-scale foundation models that can generalize to various diagnostic tasks using OCT images. Nevertheless, existing foundation models for OCT only consider 2D image slices, overlooking the rich 3D structure. Here, we present OCTCube, a 3D foundation model pre-trained on 26,605 3D OCT volumes encompassing 1.62 million 2D OCT images. OCTCube is developed based on 3D masked autoencoders and exploits FlashAttention to reduce the larger GPU memory usage caused by modeling 3D volumes. OCTCube outperforms 2D models when predicting 8 retinal diseases in both inductive and cross-dataset settings, indicating that utilizing the 3D structure in the model instead of 2D data results in significant improvement. OCTCube further shows superior performance on cross-device prediction and when predicting systemic diseases, such as diabetes and hypertension, further demonstrating its strong generalizability. Finally, we propose a contrastive-self-supervised-learning-based OCT-IR pre-training framework (COIP) for cross-modality analysis on OCT and infrared retinal (IR) images, where the OCT volumes are embedded using OCTCube. We demonstrate that COIP enables accurate alignment between OCT and IR en face images. Collectively, OCTCube, a 3D OCT foundation model, demonstrates significantly better performance against 2D models on 27 out of 29 tasks and comparable performance on the other two tasks, paving the way for AI-based retinal disease diagnosis.
- Abstract(参考訳): 光コヒーレンス断層撮影(OCT)は、網膜と視神経の3D画像を可能にするため、網膜疾患の診断に重要である。
OCTの買収は高速で、非侵襲的で、安価で、スケーラブルである。
適用範囲が広いため、定期的な試験で大量のOCT画像が蓄積されており、OCT画像を用いて様々な診断タスクに一般化できる大規模な基礎モデルを訓練することが可能である。
OCTの既存の基礎モデルは2次元画像スライスのみを考慮し、リッチな3次元構造を見下ろしている。
ここではOCTCubeについて述べる。OCTCubeは26,605個の3D OCTボリュームで事前訓練された3D基礎モデルである。
OCTCubeは3Dマスク付きオートエンコーダに基づいて開発され、FlashAttentionを利用して3DボリュームのモデリングによるGPUメモリ使用量の削減を行う。
OCTCubeは、インダクティブとクロスデータセットの両方で8つの網膜疾患を予測する際に、2Dデータの代わりにモデル内の3D構造を利用することで大幅に改善されることを示す2Dモデルよりも優れています。
OCTCubeはさらに、クロスデバイス予測や糖尿病や高血圧などの全身疾患の予測に優れた性能を示し、その強力な一般化性を示している。
最後に,OCT と赤外線網膜 (IR) 画像の相互モダリティ解析のために,OCTCube を用いて OCT ボリュームを埋め込んだコントラッシブ自己教師付き学習ベース OCT-IR 事前学習フレームワークを提案する。
我々は、COIPがOCTとIRの顔画像との正確なアライメントを可能にすることを実証した。
OCTCubeは3D OCTファウンデーションモデルであり、29タスク中27タスクで2Dモデルに対して、他の2タスクで同等のパフォーマンスを示し、AIベースの網膜疾患診断への道を開く。
関連論文リスト
- Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - Deep Convolutional Neural Networks on Multiclass Classification of Three-Dimensional Brain Images for Parkinson's Disease Stage Prediction [2.931680194227131]
パーキンソン病の病期を正確に予測できるモデルを開発した。
我々は3次元脳画像全体を入力として使用した。
予測過程において,異なるスライスの重要性を考慮に入れた注意機構を組み込んだ。
論文 参考訳(メタデータ) (2024-10-31T05:40:08Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D
Networks for 3D Coherent Layer Segmentation of Retinal OCT Images with Full
and Sparse Annotations [32.69359482975795]
本研究は, ハイブリッド2D-3D畳み込みニューラルネットワーク(CNN)を基盤として, OCTボリュームから連続した3次元網膜層表面を得るための新しい枠組みを提案する。
人工的データセットと3つのパブリックな臨床データセットの実験により、我々のフレームワークは、潜在的運動補正のためにBスキャンを効果的に調整できることを示した。
論文 参考訳(メタデータ) (2023-12-04T08:32:31Z) - Deep learning network to correct axial and coronal eye motion in 3D OCT
retinal imaging [65.47834983591957]
深層学習に基づくニューラルネットワークを用いて,OCTの軸運動とコロナ運動のアーチファクトを1つのスキャンで補正する。
実験結果から, 提案手法は動作アーチファクトを効果的に補正し, 誤差が他の方法よりも小さいことを示す。
論文 参考訳(メタデータ) (2023-05-27T03:55:19Z) - Simultaneous Alignment and Surface Regression Using Hybrid 2D-3D
Networks for 3D Coherent Layer Segmentation of Retina OCT Images [33.99874168018807]
本研究では,ハイブリッド2D-3D畳み込みニューラルネットワーク(CNN)を用いた新しいフレームワークを提案し,OCTから連続した3次元網膜層表面を得る。
本フレームワークは, 層分割精度とクロスBスキャン3D連続性の両方の観点から, 最先端の2D手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-04T15:55:09Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。