論文の概要: When Swin Transformer Meets KANs: An Improved Transformer Architecture for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2511.04084v1
- Date: Thu, 06 Nov 2025 05:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.321097
- Title: When Swin Transformer Meets KANs: An Improved Transformer Architecture for Medical Image Segmentation
- Title(参考訳): Swin TransformerがKansと出会ったとき:医療画像セグメンテーションのための改良されたトランスフォーマーアーキテクチャ
- Authors: Nishchal Sapkota, Haoyan Shi, Yejia Zhang, Xianshi Ma, Bofang Zheng, Danny Z. Chen,
- Abstract要約: 我々は,有理機能に基づくKAN(Kolmogorov-Arnold Networks)をSwin Transformerエンコーダに統合したU-NetライクアーキテクチャであるUKASTを紹介する。
UKASTは、4つの異なる2Dおよび3D医療画像セグメンテーションベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.656996937993199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation is critical for accurate diagnostics and treatment planning, but remains challenging due to complex anatomical structures and limited annotated training data. CNN-based segmentation methods excel at local feature extraction, but struggle with modeling long-range dependencies. Transformers, on the other hand, capture global context more effectively, but are inherently data-hungry and computationally expensive. In this work, we introduce UKAST, a U-Net like architecture that integrates rational-function based Kolmogorov-Arnold Networks (KANs) into Swin Transformer encoders. By leveraging rational base functions and Group Rational KANs (GR-KANs) from the Kolmogorov-Arnold Transformer (KAT), our architecture addresses the inefficiencies of vanilla spline-based KANs, yielding a more expressive and data-efficient framework with reduced FLOPs and only a very small increase in parameter count compared to SwinUNETR. UKAST achieves state-of-the-art performance on four diverse 2D and 3D medical image segmentation benchmarks, consistently surpassing both CNN- and Transformer-based baselines. Notably, it attains superior accuracy in data-scarce settings, alleviating the data-hungry limitations of standard Vision Transformers. These results show the potential of KAN-enhanced Transformers to advance data-efficient medical image segmentation. Code is available at: https://github.com/nsapkota417/UKAST
- Abstract(参考訳): 医用画像のセグメンテーションは、正確な診断と治療計画のために重要であるが、複雑な解剖学的構造と限られた注釈付きトレーニングデータのために依然として困難である。
CNNベースのセグメンテーション手法は、局所的な特徴抽出において優れているが、長距離依存のモデリングに苦慮している。
一方、トランスフォーマーは、グローバルコンテキストをより効果的にキャプチャするが、本質的にデータ不足であり、計算コストがかかる。
本稿では,有理関数に基づくKAN(Kolmogorov-Arnold Networks)をSwin Transformerエンコーダに統合したU-NetライクアーキテクチャであるUKASTを紹介する。
有理基底関数とKolmogorov-Arnold Transformer (KAT) の Group Rational Kans (GR-KANs) を活用することで、我々のアーキテクチャは、バニラスプラインベースのkansの非効率性に対処し、FLOPを減らし、パラメータ数をSwinUNETRに比べてわずかに増加させる。
UKASTは、4つの異なる2Dおよび3D医療画像セグメンテーションベンチマークで最先端のパフォーマンスを達成し、CNNとTransformerベースのベースラインを一貫して上回っている。
特に、標準のVision Transformerのデータ強調制限を緩和し、データスカース設定において優れた精度を実現する。
これらの結果から,kan-enhanced Transformer がデータ効率の高い医用画像セグメンテーションを進展させる可能性が示唆された。
コードは、https://github.com/nsapkota417/UKASTで入手できる。
関連論文リスト
- GLoG-CSUnet: Enhancing Vision Transformers with Adaptable Radiomic Features for Medical Image Segmentation [2.294915015129229]
ビジョントランスフォーマー(ViT)は医療画像セマンティックセグメンテーション(MISS)において有望であることを示した
Gabor and Laplacian of Gaussian Convolutional Swin Network (GLoG-CSUnet) を紹介する。
GLoG-CSUnetは、学習可能な放射能機能を組み込んだトランスフォーマーモデルを強化する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2025-01-06T06:07:40Z) - TransUKAN:Computing-Efficient Hybrid KAN-Transformer for Enhanced Medical Image Segmentation [5.280523424712006]
U-Netは現在、医療画像セグメンテーションの最も広く使われているアーキテクチャである。
我々は、メモリ使用量と計算負荷を減らすためにkanを改善した。
このアプローチは、非線形関係をキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-09-23T02:52:49Z) - A lightweight residual network for unsupervised deformable image registration [2.7309692684728617]
本稿では, 並列拡張畳み込みブロックを組み込んだ残差U-Netを提案する。
本手法は患者間およびアトラスに基づくデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-14T07:20:49Z) - BATFormer: Towards Boundary-Aware Lightweight Transformer for Efficient
Medical Image Segmentation [26.405243756778606]
本稿では,計算複雑性の低い大規模グローバルインタラクションを構築するための境界対応軽量トランス (BATFormer) を提案する。
BATFormerは、平均、右心室、心筋、左心室それぞれ92.84%、91.97%、90.26%、96.30%の成績を収めている。
論文 参考訳(メタデータ) (2022-06-29T05:37:16Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。