論文の概要: SwInception -- Local Attention Meets Convolutions
- arxiv url: http://arxiv.org/abs/2605.29954v1
- Date: Thu, 28 May 2026 14:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.372521
- Title: SwInception -- Local Attention Meets Convolutions
- Title(参考訳): SwInception - ローカルアテンションがコンボリューションに遭遇
- Authors: David Hagerman, Roman Naeem, Jakob Lindqvist, Carl Lindström, Fredrik Kahl, Lennart Svensson,
- Abstract要約: フィードフォワード層にインセプションブロックを導入し,スウィンの誘導バイアスを高める。
11種類の医療データセットのパフォーマンス改善を実演する。
- 参考スコア(独自算出の注目度): 18.54445823935178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse vision transformers have gained popularity as efficient encoders for medical volumetric segmentation, with Swin emerging as a prominent choice. Swin uses local attention to reduce complexity and yields excellent performance for many tasks but still tends to overfit on small datasets. To mitigate this weakness, we propose a novel architecture that further enhances Swin's inductive bias by introducing Inception blocks in the feed-forward layers. The introduction of these multi-branch convolutions enables more direct reasoning over local, multi-scale features within the transformer block. We have also modified the decoder layers in order to capture finer details using fewer parameters. We demonstrate a performance improvement on eleven different medical datasets through extensive experimentation. We specifically showcase advancements over the previous state-of-the-art backbones on benchmark challenges like the Medical Segmentation Decathlon and Beyond the Cranial Vault. By showing that the existing inductive bias in Swin can be further improved, our work presents a promising avenue for enhancing the capabilities of sparse vision transformers for both medical and natural image segmentation tasks. Code and pre-trained weights can be accessed at https://github.com/Eiphodos/SwInception.
- Abstract(参考訳): スパース・ビジョン・トランスフォーマーは、医療用ボリュームセグメンテーションのための効率的なエンコーダとして人気を集めており、スウィンが顕著な選択肢となっている。
Swinは複雑さを減らし、多くのタスクに優れたパフォーマンスをもたらすが、それでも小さなデータセットに過度に適合する傾向にある。
この弱点を軽減するために,フィードフォワード層にインセプションブロックを導入することにより,スウィンの誘導バイアスをさらに高める新しいアーキテクチャを提案する。
これらのマルチブランチ畳み込みの導入により、トランスブロック内の局所的、マルチスケールな機能に対するより直接的な推論が可能になる。
また、より少ないパラメータを使って細部をキャプチャするためにデコーダ層を変更しました。
広範囲な実験により,11種類の医療データセットのパフォーマンス向上を実証した。
特に、メディカルセグメンテーション宣言(Medicical Segmentation Decathlon)やBeyond the Cranial Vault(Beyond the Cranial Vault)といったベンチマークの課題について、最先端のバックボーンの進歩を紹介します。
スウィンにおける既存の誘導バイアスをさらに改善できることを示し、医用および自然画像分割作業におけるスパース・ビジョン・トランスフォーマーの能力を高めるための有望な道を示す。
コードとトレーニング済みのウェイトはhttps://github.com/Eiphodos/SwInception.comからアクセスすることができる。
関連論文リスト
- STA-Unet: Rethink the semantic redundant for Medical Imaging Segmentation [1.9526521731584066]
スーパートークン注意(Super Token Attention, STA)機構は、スーパートークンをコンパクトな視覚表現として用い、ピクセル空間からトークン空間へのスーパーピクセルの概念を適応させる。
本研究では、豊富な情報を失うことなく冗長性を抑えるために、UNetアーキテクチャ(STA-UNet)にSTAモジュールを導入する。
4つの公開データセットの実験結果は、既存の最先端アーキテクチャよりもSTA-UNetの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-10-13T07:19:46Z) - Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - CATS v2: Hybrid encoders for robust medical segmentation [12.194439938007672]
畳み込みニューラルネットワーク(CNN)は、医用画像分割タスクにおいて強力な性能を示した。
しかし、畳み込みカーネルの視野が限られているため、CNNがグローバル情報を完全に表現することは困難である。
ローカル情報とグローバル情報の両方を活用するハイブリッドエンコーダを用いたCATS v2を提案する。
論文 参考訳(メタデータ) (2023-08-11T20:21:54Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。