論文の概要: QTSeg: A Query Token-Based Architecture for Efficient 2D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2412.17241v1
- Date: Mon, 23 Dec 2024 03:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:20.866947
- Title: QTSeg: A Query Token-Based Architecture for Efficient 2D Medical Image Segmentation
- Title(参考訳): QTSeg: 効率的な2次元医用画像分割のためのクエリトークンベースのアーキテクチャ
- Authors: Phuong-Nam Tran, Nhat Truong Pham, Duc Ngoc Minh Dang, Eui-Nam Huh, Choong Seon Hong,
- Abstract要約: 医用画像のセグメンテーションは、医師が診断を行い、自動診断を可能にするのに不可欠である。
CNNはピクセルレベルの精度で関心のあるセグメンテーション領域を抜いているが、長距離依存に苦慮している。
トランスフォーマーはアテンションメカニズムを活用して、長距離依存関係を処理する。
医用2次元画像セグメンテーション(QTSeg)のための新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.359001333361272
- License:
- Abstract: Medical image segmentation is crucial in assisting medical doctors in making diagnoses and enabling accurate automatic diagnosis. While advanced convolutional neural networks (CNNs) excel in segmenting regions of interest with pixel-level precision, they often struggle with long-range dependencies, which is crucial for enhancing model performance. Conversely, transformer architectures leverage attention mechanisms to excel in handling long-range dependencies. However, the computational complexity of transformers grows quadratically, posing resource-intensive challenges, especially with high-resolution medical images. Recent research aims to combine CNN and transformer architectures to mitigate their drawbacks and enhance performance while keeping resource demands low. Nevertheless, existing approaches have not fully leveraged the strengths of both architectures to achieve high accuracy with low computational requirements. To address this gap, we propose a novel architecture for 2D medical image segmentation (QTSeg) that leverages a feature pyramid network (FPN) as the image encoder, a multi-level feature fusion (MLFF) as the adaptive module between encoder and decoder and a multi-query mask decoder (MQM Decoder) as the mask decoder. In the first step, an FPN model extracts pyramid features from the input image. Next, MLFF is incorporated between the encoder and decoder to adapt features from different encoder stages to the decoder. Finally, an MQM Decoder is employed to improve mask generation by integrating query tokens with pyramid features at all stages of the mask decoder. Our experimental results show that QTSeg outperforms state-of-the-art methods across all metrics with lower computational demands than the baseline and the existing methods. Code is available at https://github.com/tpnam0901/QTSeg (v0.1.0)
- Abstract(参考訳): 医用画像のセグメンテーションは、医師が診断を行い、正確な自動診断を可能にするのに不可欠である。
高度な畳み込みニューラルネットワーク(CNN)はピクセルレベルの精度で関心領域のセグメンテーションに優れていますが、モデルパフォーマンスを向上させる上で重要な長距離依存に悩まされることが少なくありません。
逆に、トランスフォーマーアーキテクチャはアテンションメカニズムを活用して、長距離依存の処理に長けている。
しかし、変換器の計算複雑性は二次的に増大し、特に高解像度の医療画像では資源集約的な課題が生じる。
最近の研究は、CNNとトランスフォーマーアーキテクチャを組み合わせることで、その欠点を軽減し、リソース要求を低く抑えながら性能を向上させることを目的としている。
それにもかかわらず、既存のアプローチは、低い計算要求で高い精度を達成するために両方のアーキテクチャの強みを十分に活用していない。
このギャップに対処するために、画像エンコーダとして特徴ピラミッドネットワーク(FPN)、エンコーダとデコーダの適応モジュールとして多レベル特徴融合(MLFF)、マスクデコーダとしてマルチクエリマスクデコーダ(MQMデコーダ)を利用する2次元医用画像セグメンテーション(QTSeg)のアーキテクチャを提案する。
最初のステップでは、FPNモデルが入力画像からピラミッドの特徴を抽出する。
次に、MLFFはエンコーダとデコーダの間に組み込まれ、異なるエンコーダステージからデコーダへの機能適応を行う。
最後に、MQMデコーダを使用して、マスクデコーダの全ステージにおけるクエリトークンとピラミッド機能を統合することで、マスク生成を改善する。
実験の結果,QTSegはベースラインや既存手法よりも計算要求の少ない全ての指標において,最先端の手法よりも優れていた。
コードはhttps://github.com/tpnam0901/QTSeg (v0.1.0)で入手できる。
関連論文リスト
- Prototype Learning Guided Hybrid Network for Breast Tumor Segmentation in DCE-MRI [58.809276442508256]
本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマー層を組み合わせたハイブリッドネットワークを提案する。
プライベートおよびパブリックなDCE-MRIデータセットの実験結果から,提案したハイブリッドネットワークは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T15:46:00Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - ParaTransCNN: Parallelized TransCNN Encoder for Medical Image
Segmentation [7.955518153976858]
本稿では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。
特に小臓器では, セグメンテーションの精度が向上した。
論文 参考訳(メタデータ) (2024-01-27T05:58:36Z) - MIST: Medical Image Segmentation Transformer with Convolutional
Attention Mixing (CAM) Decoder [0.0]
本稿では,CAMデコーダを組み込んだ医用画像変換器(MIST)を提案する。
MISTには2つの部分がある: 事前訓練された多軸視覚変換器(MaxViT)をエンコーダとして使用し、符号化された特徴表現をCAMデコーダに渡して画像のセグメンテーションを行う。
空間情報ゲインを高めるため、特徴抽出及び受容野拡大に深部及び浅部畳み込みを用いる。
論文 参考訳(メタデータ) (2023-10-30T18:07:57Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Atrous Residual Interconnected Encoder to Attention Decoder Framework
for Vertebrae Segmentation via 3D Volumetric CT Images [1.8146155083014204]
本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。
提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。
実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。
論文 参考訳(メタデータ) (2021-04-08T12:09:16Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。