論文の概要: TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.04058v1
- Date: Wed, 06 Aug 2025 03:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.532131
- Title: TCSAFormer: Efficient Vision Transformer with Token Compression and Sparse Attention for Medical Image Segmentation
- Title(参考訳): TCSAFormer:医用画像分割のためのトーケン圧縮とスパースアテンションを併用した高能率視覚変換器
- Authors: Zunhui Xia, Hongxing Li, Libin Lan,
- Abstract要約: 本稿では,TCSAFormerという医用画像分割ネットワークを提案する。
Compressed Attention (CA)モジュールが組み込まれており、トークン圧縮と画素レベルのスパースアテンションを組み合わせて、クエリ毎に最も関連性の高いキーと値のペアに動的にフォーカスする。
標準的なFFNの代替として、Dual-Branch Feed-Forward Network (DBFFN)モジュールを導入し、ローカルコンテキストの特徴とマルチスケール情報をキャプチャする。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer-based methods have achieved remarkable progress in medical image segmentation due to their superior ability to capture long-range dependencies. However, these methods typically suffer from two major limitations. First, their computational complexity scales quadratically with the input sequences. Second, the feed-forward network (FFN) modules in vanilla Transformers typically rely on fully connected layers, which limits models' ability to capture local contextual information and multiscale features critical for precise semantic segmentation. To address these issues, we propose an efficient medical image segmentation network, named TCSAFormer. The proposed TCSAFormer adopts two key ideas. First, it incorporates a Compressed Attention (CA) module, which combines token compression and pixel-level sparse attention to dynamically focus on the most relevant key-value pairs for each query. This is achieved by pruning globally irrelevant tokens and merging redundant ones, significantly reducing computational complexity while enhancing the model's ability to capture relationships between tokens. Second, it introduces a Dual-Branch Feed-Forward Network (DBFFN) module as a replacement for the standard FFN to capture local contextual features and multiscale information, thereby strengthening the model's feature representation capability. We conduct extensive experiments on three publicly available medical image segmentation datasets: ISIC-2018, CVC-ClinicDB, and Synapse, to evaluate the segmentation performance of TCSAFormer. Experimental results demonstrate that TCSAFormer achieves superior performance compared to existing state-of-the-art (SOTA) methods, while maintaining lower computational overhead, thus achieving an optimal trade-off between efficiency and accuracy.
- Abstract(参考訳): 近年、トランスフォーマーを用いた手法は、長距離依存関係を捕捉する能力に優れており、医用画像のセグメンテーションにおいて顕著な進歩を遂げている。
しかし、これらの方法は通常2つの大きな制限に悩まされる。
まず、それらの計算複雑性は入力シーケンスと2次的にスケールする。
第二に、バニラトランスフォーマーのフィードフォワードネットワーク(FFN)モジュールは一般的に完全に接続された層に依存しており、モデルが局所的なコンテキスト情報をキャプチャする能力や、正確なセマンティックセグメンテーションに不可欠なマルチスケール機能を制限する。
これらの課題に対処するため,TCSAFormer という医用画像分割ネットワークを提案する。
提案されているTCSAFormerには2つの重要なアイデアがある。
これはトークン圧縮とピクセルレベルのスパースアテンションを組み合わせたもので、クエリ毎に最も関連性の高いキーと値のペアに動的にフォーカスする。
これは、グローバルに無関係なトークンをプルーニングし、冗長なトークンをマージすることで実現される。
第二に、Dual-Branch Feed-Forward Network (DBFFN) モジュールを標準FFNの代替として導入し、ローカルコンテキストの特徴とマルチスケール情報をキャプチャし、モデルの特徴表現能力を強化する。
我々は,TSAFormerのセグメンテーション性能を評価するために,ISIC-2018,CVC-ClinicDB,Synapseの3つの医用画像セグメンテーションデータセットについて広範な実験を行った。
実験の結果,TCSAFormerは従来のSOTA法に比べて高い性能を示し,計算オーバーヘッドは低く,効率と精度のトレードオフが最適であることがわかった。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - QTSeg: A Query Token-Based Dual-Mix Attention Framework with Multi-Level Feature Distribution for Medical Image Segmentation [13.359001333361272]
医用画像のセグメンテーションは、正確な診断と自動診断プロセスの実現を医療専門家に支援する上で重要な役割を担っている。
従来の畳み込みニューラルネットワーク(CNN)は、長い範囲の依存関係をキャプチャするのに苦労することが多い。
近年の取り組みはCNNとトランスフォーマーを組み合わせて性能と効率のバランスをとることに重点を置いているが、既存の手法は計算コストを低く抑えながら高いセグメンテーション精度を達成するという課題に直面している。
ローカルおよびグローバルな情報を効果的に統合する医療画像セグメンテーションのための新しいアーキテクチャであるQTSegを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:22:44Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation [11.986549780782724]
医用画像の正確な分割作業のために,BRAU-Net++ というハイブリッドで効果的な CNN-Transformer ネットワークを提案する。
具体的には、BRAU-Net++は、U字型エンコーダデコーダ構造を設計するために、コアビルディングブロックとしてバイレベルルーティングアテンションを使用する。
提案手法は,そのベースラインであるBRAU-Netを含む,最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-01-01T10:49:09Z) - FCN-Transformer Feature Fusion for Polyp Segmentation [12.62213319797323]
大腸内視鏡は大腸癌の早期発見のための金標準法として広く認められている。
大腸内視鏡画像におけるポリープのマニュアルセグメンテーションは時間を要する。
ポリプセグメンテーションの自動化におけるディープラーニングの利用が重要になっている。
論文 参考訳(メタデータ) (2022-08-17T15:31:06Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。