論文の概要: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention
- arxiv url: http://arxiv.org/abs/2502.13693v1
- Date: Wed, 19 Feb 2025 13:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:49.818930
- Title: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention
- Title(参考訳): Kan-Integrated Transformers による医用画像の分類と拡張隣接注意
- Authors: Omid Nejati Manzari, Hojat Asgariandehkordi, Taha Koleilat, Yiming Xiao, Hassan Rivaz,
- Abstract要約: 一般的な医用画像分類のための医療ビジョン変換器(MedViTV2)を紹介する。
MedViTV2は前バージョンよりも計算効率が44%高い。
MedMNISTでは4.6%、NonMNISTでは5.8%、MedMNIST-Cベンチマークでは13.4%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 2.13145300583399
- License:
- Abstract: Convolutional networks, transformers, hybrid models, and Mamba-based architectures have demonstrated strong performance across various medical image classification tasks. However, these methods were primarily designed to classify clean images using labeled data. In contrast, real-world clinical data often involve image corruptions that are unique to multi-center studies and stem from variations in imaging equipment across manufacturers. In this paper, we introduce the Medical Vision Transformer (MedViTV2), a novel architecture incorporating Kolmogorov-Arnold Network (KAN) layers into the transformer architecture for the first time, aiming for generalized medical image classification. We have developed an efficient KAN block to reduce computational load while enhancing the accuracy of the original MedViT. Additionally, to counteract the fragility of our MedViT when scaled up, we propose an enhanced Dilated Neighborhood Attention (DiNA), an adaptation of the efficient fused dot-product attention kernel capable of capturing global context and expanding receptive fields to scale the model effectively and addressing feature collapse issues. Moreover, a hierarchical hybrid strategy is introduced to stack our Local Feature Perception and Global Feature Perception blocks in an efficient manner, which balances local and global feature perceptions to boost performance. Extensive experiments on 17 medical image classification datasets and 12 corrupted medical image datasets demonstrate that MedViTV2 achieved state-of-the-art results in 27 out of 29 experiments with reduced computational complexity. MedViTV2 is 44\% more computationally efficient than the previous version and significantly enhances accuracy, achieving improvements of 4.6\% on MedMNIST, 5.8\% on NonMNIST, and 13.4\% on the MedMNIST-C benchmark.
- Abstract(参考訳): 畳み込みネットワーク、トランスフォーマー、ハイブリッドモデル、およびマンバをベースとしたアーキテクチャは、様々な医療画像分類タスクにおいて強力な性能を示している。
しかし、これらの手法は主にラベル付きデータを用いてクリーンな画像を分類するために設計された。
対照的に、実世界の臨床データは、多施設研究に特有の画像の破損を伴い、製造業者間での撮像装置のバリエーションに起因することが多い。
本稿では,KAN(Kolmogorov-Arnold Network)レイヤをトランスフォーマアーキテクチャに組み込んだ新しいアーキテクチャであるMedViTV2を紹介する。
我々は,元のMedViTの精度を高めつつ,計算負荷を削減するための効率的なkanブロックを開発した。
さらに、スケールアップ時のMedViTの脆弱性に対応するため、グローバルコンテキストを捕捉し、受容場を拡大し、モデルを効果的にスケールし、特徴の崩壊問題に対処できる効率的な融合ドット製品アテンションカーネルの適応である拡張Dilated Neighborhood Attention (DiNA)を提案する。
さらに、局所的特徴知覚とグローバル的特徴知覚ブロックを効率よく積み重ねる階層的ハイブリッド戦略を導入し、局所的特徴知覚とグローバル的特徴知覚のバランスを取り、性能を高める。
17の医用画像分類データセットと12の医療用画像データセットに関する大規模な実験は、MedViTV2が計算複雑性を低減した29の実験のうち27実験で最先端の結果を達成したことを示している。
MedViTV2は以前のバージョンよりも44\%計算効率が高く、精度が大幅に向上し、MedMNISTでは4.6\%、NonMNISTでは5.8\%、MedMNIST-Cベンチマークでは13.4\%の改善が達成された。
関連論文リスト
- MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。
凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。
改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:50:33Z) - Boosting Medical Image Segmentation Performance with Adaptive Convolution Layer [6.887244952811574]
UCTransNetのような先進的なディープラーニングモデルに先立つ適応層を提案する。
我々のアプローチは、多様な解剖学的構造と微妙な画像の詳細を扱うネットワークの能力を高める。
従来のCNNよりも、同じ数のパラメータで固定されたカーネルサイズで一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-04-17T13:18:39Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - PHTrans: Parallelly Aggregating Global and Local Representations for
Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。
PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文 参考訳(メタデータ) (2022-03-09T08:06:56Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - Contrastive Cross-site Learning with Redesigned Net for COVID-19 CT
Classification [20.66003113364796]
新型コロナウイルス感染症(COVID-19)のパンデミックにより、世界の公衆衛生危機が数百カ国で拡大している。
画像解釈の面倒な作業量を削減するとともに、臨床診断を支援するために、CT画像を用いたCOVID-19識別自動化ツールの開発が望まれている。
本稿では、異種データセットを効果的に学習することで、正確な新型コロナウイルス識別を行うための新しい共同学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-15T11:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。