論文の概要: Adapting Pre-trained Vision Transformers from 2D to 3D through Weight
Inflation Improves Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2302.04303v1
- Date: Wed, 8 Feb 2023 19:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:42:28.448745
- Title: Adapting Pre-trained Vision Transformers from 2D to 3D through Weight
Inflation Improves Medical Image Segmentation
- Title(参考訳): 重み付けによる2次元から3次元への事前学習型視覚変換器の適応による医用画像分割の改善
- Authors: Yuhui Zhang, Shih-Cheng Huang, Zhengping Zhou, Matthew P. Lungren,
Serena Yeung
- Abstract要約: 我々は2Dから3Dに事前訓練されたトランスフォーマーを適応させるために重量インフレーション戦略を使用し、トランスファーラーニングと深度情報の両方の利点を維持している。
提案手法は,幅広い3次元医用画像データセットを対象とした最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.693778706169752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the prevalence of 3D medical imaging technologies such as MRI and CT
that are widely used in diagnosing and treating diverse diseases, 3D
segmentation is one of the fundamental tasks of medical image analysis.
Recently, Transformer-based models have started to achieve state-of-the-art
performances across many vision tasks, through pre-training on large-scale
natural image benchmark datasets. While works on medical image analysis have
also begun to explore Transformer-based models, there is currently no optimal
strategy to effectively leverage pre-trained Transformers, primarily due to the
difference in dimensionality between 2D natural images and 3D medical images.
Existing solutions either split 3D images into 2D slices and predict each slice
independently, thereby losing crucial depth-wise information, or modify the
Transformer architecture to support 3D inputs without leveraging pre-trained
weights. In this work, we use a simple yet effective weight inflation strategy
to adapt pre-trained Transformers from 2D to 3D, retaining the benefit of both
transfer learning and depth information. We further investigate the
effectiveness of transfer from different pre-training sources and objectives.
Our approach achieves state-of-the-art performances across a broad range of 3D
medical image datasets, and can become a standard strategy easily utilized by
all work on Transformer-based models for 3D medical images, to maximize
performance.
- Abstract(参考訳): 多様な疾患の診断・治療に広く用いられているMRIやCTなどの3D医療画像技術の普及を考えると、3Dセグメンテーションは医用画像解析の基本的な課題の1つである。
近年,大規模な自然画像ベンチマークデータセットを事前トレーニングすることにより,トランスフォーマモデルによる最先端のパフォーマンスの実現が始まっている。
医用画像解析の研究もTransformerベースのモデルを探索し始めているが、主に2次元の自然画像と3次元の医用画像の寸法差のために、トレーニング済みのTransformerを効果的に活用するための最適な戦略はない。
既存のソリューションでは、3d画像を2dスライスに分割して各スライスを独立に予測することで、重要な奥行き情報を失うか、事前訓練された重みを使わずに3d入力をサポートするトランスフォーマーアーキテクチャを変更するかのどちらかである。
本研究では, 2dから3dにプリトレーニングトランスを適応させるために, 単純かつ効果的な重みのインフレーション戦略を用い, 伝達学習と奥行き情報の両方の利点を保った。
さらに, 異なる事前学習源と目的からの移動の有効性について検討した。
提案手法は,多種多様な3次元医用画像データセットにまたがる最先端のパフォーマンスを実現し,その性能を最大化するために,Transformerベースの3次元医用画像モデルに関するすべての研究で容易に活用できる標準戦略となる。
関連論文リスト
- Cross-D Conv: Cross-Dimensional Transferable Knowledge Base via Fourier Shifting Operation [3.69758875412828]
クロスD Conv 演算はフーリエ領域における位相シフトを学習することで次元ギャップを橋渡しする。
本手法は2次元と3次元の畳み込み操作間のシームレスな重み移動を可能にする。
論文 参考訳(メタデータ) (2024-11-02T13:03:44Z) - Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文 参考訳(メタデータ) (2024-06-24T23:23:18Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models [52.529394863331326]
本稿では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。
MRI Z軸超解像, 圧縮センシングMRI, スパースCTなどの3次元医用画像再構成作業に有効である。
論文 参考訳(メタデータ) (2023-03-15T08:28:06Z) - View-Disentangled Transformer for Brain Lesion Detection [50.4918615815066]
より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディペンタングル変換器を提案する。
まず, 3次元脳スキャンにおいて, 異なる位置の長距離相関を求める。
第二に、トランスフォーマーはスライス機能のスタックを複数の2Dビューとしてモデル化し、これらの機能をビュー・バイ・ビューとして拡張する。
第三に、提案したトランスモジュールをトランスのバックボーンに展開し、脳病変を取り巻く2D領域を効果的に検出する。
論文 参考訳(メタデータ) (2022-09-20T11:58:23Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Medical Transformer: Universal Brain Encoder for 3D MRI Analysis [1.6287500717172143]
既存の3Dベースの手法は、トレーニング済みのモデルを下流のタスクに転送している。
彼らは3D医療イメージングのためのモデルを訓練するために大量のパラメータを要求します。
本稿では,2次元画像スライス形式で3次元容積画像を効果的にモデル化する,メディカルトランスフォーマーと呼ばれる新しい伝達学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:21Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。