論文の概要: Barlow-Swin: Toward a novel siamese-based segmentation architecture using Swin-Transformers
- arxiv url: http://arxiv.org/abs/2509.06885v1
- Date: Mon, 08 Sep 2025 17:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.273915
- Title: Barlow-Swin: Toward a novel siamese-based segmentation architecture using Swin-Transformers
- Title(参考訳): Barlow-Swin: Swin-Transformer を用いた新しいシアムベースセグメンテーションアーキテクチャを目指して
- Authors: Morteza Kiani Haftlang, Mohammadhossein Malmir, Foroutan Parand, Umberto Michelucci, Safouane El Ghazouali,
- Abstract要約: 本稿では,リアルタイムな2次元医用画像セグメンテーションに特化して設計された,エンドツーエンドの軽量アーキテクチャを提案する。
我々のモデルは、スウィントランスフォーマーのようなエンコーダとU-Netのようなデコーダを組み合わせて、空間的詳細を保存するためにスキップ経路を介して接続する。
Swin TransformerやU-Netのような既存の設計とは異なり、アーキテクチャははるかに浅く、競争的に効率的です。
- 参考スコア(独自算出の注目度): 1.1083289076967895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical image segmentation is a critical task in clinical workflows, particularly for the detection and delineation of pathological regions. While convolutional architectures like U-Net have become standard for such tasks, their limited receptive field restricts global context modeling. Recent efforts integrating transformers have addressed this, but often result in deep, computationally expensive models unsuitable for real-time use. In this work, we present a novel end-to-end lightweight architecture designed specifically for real-time binary medical image segmentation. Our model combines a Swin Transformer-like encoder with a U-Net-like decoder, connected via skip pathways to preserve spatial detail while capturing contextual information. Unlike existing designs such as Swin Transformer or U-Net, our architecture is significantly shallower and competitively efficient. To improve the encoder's ability to learn meaningful features without relying on large amounts of labeled data, we first train it using Barlow Twins, a self-supervised learning method that helps the model focus on important patterns by reducing unnecessary repetition in the learned features. After this pretraining, we fine-tune the entire model for our specific task. Experiments on benchmark binary segmentation tasks demonstrate that our model achieves competitive accuracy with substantially reduced parameter count and faster inference, positioning it as a practical alternative for deployment in real-time and resource-limited clinical environments. The code for our method is available at Github repository: https://github.com/mkianih/Barlow-Swin.
- Abstract(参考訳): 医用画像のセグメンテーションは、特に病理領域の検出とデライン化において、臨床ワークフローにおいて重要な課題である。
U-Netのような畳み込みアーキテクチャはそのようなタスクの標準となっているが、その限定的な受容領域はグローバルなコンテキストモデリングを制限する。
変換器を統合する最近の取り組みはこの問題に対処してきたが、多くの場合、リアルタイム利用には適さない深い計算コストのモデルをもたらす。
そこで本研究では,リアルタイムな2次元医用画像セグメンテーションに特化して設計された,エンドツーエンドの軽量アーキテクチャを提案する。
提案モデルは,Swin TransformerライクなエンコーダとU-Netライクなデコーダを組み合わせることで,空間的ディテールを保存し,コンテキスト情報をキャプチャする。
Swin TransformerやU-Netのような既存の設計とは異なり、アーキテクチャははるかに浅く、競争的に効率的です。
大量のラベル付きデータに頼ることなく有意義な特徴を学習できるエンコーダの能力を向上させるために,我々はまず,学習した特徴の不要な繰り返しを減らすことで,モデルが重要なパターンにフォーカスするのに役立つ自己教師付き学習手法であるBarlow Twinsを用いて学習する。
この事前トレーニングの後、特定のタスクのためにモデル全体を微調整します。
ベンチマークバイナリセグメンテーションタスクの実験により,我々のモデルはパラメータ数を大幅に削減し,より高速な推論を行うことで,リアルタイムおよびリソース制限された臨床環境への展開の現実的な代替手段として位置づけられることを示す。
私たちのメソッドのコードはGithubリポジトリで公開されている。
関連論文リスト
- TransUKAN:Computing-Efficient Hybrid KAN-Transformer for Enhanced Medical Image Segmentation [5.280523424712006]
U-Netは現在、医療画像セグメンテーションの最も広く使われているアーキテクチャである。
我々は、メモリ使用量と計算負荷を減らすためにkanを改善した。
このアプローチは、非線形関係をキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-09-23T02:52:49Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
このモデルは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
Data Science Bowls、GlaS、ISIC2018、PH2、Sunnybrook、Lung X-rayといった公開データセットの実験は有望な結果を示している。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Contextual Attention Network: Transformer Meets U-Net [0.0]
畳み込みニューラルネットワーク(CNN)はデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めた。
しかし、CNNベースのメソッドは、長距離依存関係とグローバルコンテキスト接続を構築するのに失敗する。
最近の論文では、医療画像分割タスクにTransformerの変種を活用している。
論文 参考訳(メタデータ) (2022-03-02T21:10:24Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。