論文の概要: Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks
- arxiv url: http://arxiv.org/abs/2406.17173v2
- Date: Wed, 26 Jun 2024 20:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:27:13.209274
- Title: Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks
- Title(参考訳): Diff3Dformer: Transformer Networksを用いた3次元CT分類におけるスライスシーケンス拡散の活用
- Authors: Zihao Jin, Yingying Fang, Jiahao Huang, Caiwen Xu, Simon Walsh, Guang Yang,
- Abstract要約: 拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
- 参考スコア(独自算出の注目度): 5.806035963947936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The manifestation of symptoms associated with lung diseases can vary in different depths for individual patients, highlighting the significance of 3D information in CT scans for medical image classification. While Vision Transformer has shown superior performance over convolutional neural networks in image classification tasks, their effectiveness is often demonstrated on sufficiently large 2D datasets and they easily encounter overfitting issues on small medical image datasets. To address this limitation, we propose a Diffusion-based 3D Vision Transformer (Diff3Dformer), which utilizes the latent space of the Diffusion model to form the slice sequence for 3D analysis and incorporates clustering attention into ViT to aggregate repetitive information within 3D CT scans, thereby harnessing the power of the advanced transformer in 3D classification tasks on small datasets. Our method exhibits improved performance on two different scales of small datasets of 3D lung CT scans, surpassing the state of the art 3D methods and other transformer-based approaches that emerged during the COVID-19 pandemic, demonstrating its robust and superior performance across different scales of data. Experimental results underscore the superiority of our proposed method, indicating its potential for enhancing medical image classification tasks in real-world scenarios.
- Abstract(参考訳): 肺疾患に関連する症状の出現は、個々の患者に対して異なる深さで変化し、医療画像分類のためのCTスキャンにおける3D情報の重要性を強調している。
Vision Transformerは画像分類タスクにおいて畳み込みニューラルネットワークよりも優れた性能を示しているが、その効果は十分に大きな2Dデータセットでしばしば示され、小さな医療画像データセットで過度に適合する問題に容易に遭遇する。
この制限に対処するため,Diff3Dformer (Diff3Dformer) を提案する。Diff3Dformerは,Diffusionモデルの潜伏空間を利用して3次元解析のためのスライスシーケンスを形成し,クラスタリング注意をViTに組み込んで3次元CTスキャン内に繰り返し情報を集約することにより,小さなデータセット上での3次元分類タスクにおける高度な変換器のパワーを活用する。
本手法は, 新型コロナウイルスパンデミック時に出現した最先端の3D法および他のトランスフォーマーベースのアプローチを超越し, 異なる規模のデータに対して頑健で優れたパフォーマンスを示す。
実験の結果,提案手法の優位性を実証し,現実シナリオにおける医用画像分類タスクの強化の可能性を示した。
関連論文リスト
- Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Multi-dimension unified Swin Transformer for 3D Lesion Segmentation in
Multiple Anatomical Locations [1.7413461132662074]
3次元病変分割のためのMDU-ST(multi-dimension unified Swin transformer)と呼ばれる新しいモデルを提案する。
ネットワークの性能はDice similarity coefficient(DSC)とHausdorff distance(HD)で内部の3D病変データセットを用いて評価される。
提案手法は, 放射線学および腫瘍成長モデル研究を支援するために, 自動3次元病変セグメンテーションを行うために用いられる。
論文 参考訳(メタデータ) (2023-09-04T21:24:00Z) - Adapting Pre-trained Vision Transformers from 2D to 3D through Weight
Inflation Improves Medical Image Segmentation [19.693778706169752]
我々は2Dから3Dに事前訓練されたトランスフォーマーを適応させるために重量インフレーション戦略を使用し、トランスファーラーニングと深度情報の両方の利点を維持している。
提案手法は,幅広い3次元医用画像データセットを対象とした最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-02-08T19:38:13Z) - View-Disentangled Transformer for Brain Lesion Detection [50.4918615815066]
より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディペンタングル変換器を提案する。
まず, 3次元脳スキャンにおいて, 異なる位置の長距離相関を求める。
第二に、トランスフォーマーはスライス機能のスタックを複数の2Dビューとしてモデル化し、これらの機能をビュー・バイ・ビューとして拡張する。
第三に、提案したトランスモジュールをトランスのバックボーンに展開し、脳病変を取り巻く2D領域を効果的に検出する。
論文 参考訳(メタデータ) (2022-09-20T11:58:23Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。