Fugu-MT 論文翻訳(概要): Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention

論文の概要: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention

arxiv url: http://arxiv.org/abs/2502.13693v1
Date: Wed, 19 Feb 2025 13:05:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.96098
Title: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention
Title（参考訳）: Kan-Integrated Transformers による医用画像の分類と拡張隣接注意
Authors: Omid Nejati Manzari, Hojat Asgariandehkordi, Taha Koleilat, Yiming Xiao, Hassan Rivaz,
Abstract要約: 一般的な医用画像分類のための医療ビジョン変換器(MedViTV2)を紹介する。 MedViTV2は前バージョンよりも計算効率が44%高い。 MedMNISTでは4.6%、NonMNISTでは5.8%、MedMNIST-Cベンチマークでは13.4%の精度向上を実現している。
参考スコア（独自算出の注目度）: 2.13145300583399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Convolutional networks, transformers, hybrid models, and Mamba-based architectures have demonstrated strong performance across various medical image classification tasks. However, these methods were primarily designed to classify clean images using labeled data. In contrast, real-world clinical data often involve image corruptions that are unique to multi-center studies and stem from variations in imaging equipment across manufacturers. In this paper, we introduce the Medical Vision Transformer (MedViTV2), a novel architecture incorporating Kolmogorov-Arnold Network (KAN) layers into the transformer architecture for the first time, aiming for generalized medical image classification. We have developed an efficient KAN block to reduce computational load while enhancing the accuracy of the original MedViT. Additionally, to counteract the fragility of our MedViT when scaled up, we propose an enhanced Dilated Neighborhood Attention (DiNA), an adaptation of the efficient fused dot-product attention kernel capable of capturing global context and expanding receptive fields to scale the model effectively and addressing feature collapse issues. Moreover, a hierarchical hybrid strategy is introduced to stack our Local Feature Perception and Global Feature Perception blocks in an efficient manner, which balances local and global feature perceptions to boost performance. Extensive experiments on 17 medical image classification datasets and 12 corrupted medical image datasets demonstrate that MedViTV2 achieved state-of-the-art results in 27 out of 29 experiments with reduced computational complexity. MedViTV2 is 44\% more computationally efficient than the previous version and significantly enhances accuracy, achieving improvements of 4.6\% on MedMNIST, 5.8\% on NonMNIST, and 13.4\% on the MedMNIST-C benchmark.
Abstract（参考訳）: 畳み込みネットワーク、トランスフォーマー、ハイブリッドモデル、およびマンバをベースとしたアーキテクチャは、様々な医療画像分類タスクにおいて強力な性能を示している。しかし、これらの手法は主にラベル付きデータを用いてクリーンな画像を分類するために設計された。対照的に、実世界の臨床データは、多施設研究に特有の画像の破損を伴い、製造業者間での撮像装置のバリエーションに起因することが多い。本稿では,KAN(Kolmogorov-Arnold Network)レイヤをトランスフォーマアーキテクチャに組み込んだ新しいアーキテクチャであるMedViTV2を紹介する。我々は,元のMedViTの精度を高めつつ,計算負荷を削減するための効率的なkanブロックを開発した。さらに、スケールアップ時のMedViTの脆弱性に対応するため、グローバルコンテキストを捕捉し、受容場を拡大し、モデルを効果的にスケールし、特徴の崩壊問題に対処できる効率的な融合ドット製品アテンションカーネルの適応である拡張Dilated Neighborhood Attention (DiNA)を提案する。さらに、局所的特徴知覚とグローバル的特徴知覚ブロックを効率よく積み重ねる階層的ハイブリッド戦略を導入し、局所的特徴知覚とグローバル的特徴知覚のバランスを取り、性能を高める。 17の医用画像分類データセットと12の医療用画像データセットに関する大規模な実験は、MedViTV2が計算複雑性を低減した29の実験のうち27実験で最先端の結果を達成したことを示している。 MedViTV2は以前のバージョンよりも44\%計算効率が高く、精度が大幅に向上し、MedMNISTでは4.6\%、NonMNISTでは5.8\%、MedMNIST-Cベンチマークでは13.4\%の改善が達成された。

関連論文リスト

Mobile U-ViT: Revisiting large kernel and U-shaped ViT for efficient medical image segmentation [22.045663130551446]
医用画像分割に適した移動体U字型視覚変換器(Mobile U-ViT)を提案する。この設計は、より軽量で高速なトランスフォーマーのような表現学習能力を示す。計算要求が減っているにもかかわらず、我々のアーキテクチャは8つの公開2Dおよび3Dデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-01T20:45:42Z)
HYATT-Net is Grand: A Hybrid Attention Network for Performant Anatomical Landmark Detection [17.290208035331734]
医学的画像からの解剖学的ランドマーク検出(ALD)は、幅広い臨床応用に不可欠である。 CNNとTransformerを統合した新しいハイブリッドアーキテクチャを提案する。 5つの多様なデータセットの実験は、最先端のパフォーマンスを示し、精度、堅牢性、効率の既存の手法を超越している。
論文参考訳（メタデータ） (2024-12-09T13:58:00Z)
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文参考訳（メタデータ） (2024-10-03T14:50:33Z)
Boosting Medical Image Segmentation Performance with Adaptive Convolution Layer [6.887244952811574]
UCTransNetのような先進的なディープラーニングモデルに先立つ適応層を提案する。我々のアプローチは、多様な解剖学的構造と微妙な画像の詳細を扱うネットワークの能力を高める。従来のCNNよりも、同じ数のパラメータで固定されたカーネルサイズで一貫してパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-04-17T13:18:39Z)
Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文参考訳（メタデータ） (2023-12-26T12:56:31Z)
Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文参考訳（メタデータ） (2023-10-22T02:27:02Z)
Breast Ultrasound Tumor Classification Using a Hybrid Multitask CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文参考訳（メタデータ） (2023-08-04T01:19:32Z)
AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。 AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文参考訳（メタデータ） (2023-03-01T23:37:45Z)
MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文参考訳（メタデータ） (2023-01-19T03:42:36Z)
Data-Efficient Vision Transformers for Multi-Label Disease Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。 ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文参考訳（メタデータ） (2022-08-17T09:07:45Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
PHTrans: Parallelly Aggregating Global and Local Representations for Medical Image Segmentation [7.140322699310487]
我々はPHTransと呼ばれる医用画像分割のための新しいハイブリッドアーキテクチャを提案する。 PHTransはTransformerとCNNを並列にハイブリッド化し、グローバルな特徴とローカルな特徴から階層的な表現を生成する。
論文参考訳（メタデータ） (2022-03-09T08:06:56Z)
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文参考訳（メタデータ） (2021-02-21T18:35:14Z)
Contrastive Cross-site Learning with Redesigned Net for COVID-19 CT Classification [20.66003113364796]
新型コロナウイルス感染症(COVID-19)のパンデミックにより、世界の公衆衛生危機が数百カ国で拡大している。画像解釈の面倒な作業量を削減するとともに、臨床診断を支援するために、CT画像を用いたCOVID-19識別自動化ツールの開発が望まれている。本稿では、異種データセットを効果的に学習することで、正確な新型コロナウイルス識別を行うための新しい共同学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-15T11:09:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。