論文の概要: ACC-UNet: A Completely Convolutional UNet model for the 2020s
- arxiv url: http://arxiv.org/abs/2308.13680v1
- Date: Fri, 25 Aug 2023 21:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:46:03.382216
- Title: ACC-UNet: A Completely Convolutional UNet model for the 2020s
- Title(参考訳): ACC-UNet: 2020年代の完全な畳み込みUNetモデル
- Authors: Nabil Ibtehaz, Daisuke Kihara
- Abstract要約: ACC-UNet は完全に畳み込み型 UNet モデルであり、コンブネットの固有の帰納バイアスとトランスフォーマーの設計決定を両世界の長所から得ている。
ACC-UNetは、5つの異なる医用画像セグメンテーションベンチマークで評価され、一貫してコンブネット、トランスフォーマー、およびそれらのハイブリッドよりも優れていた。
- 参考スコア(独自算出の注目度): 2.7013801448234367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This decade is marked by the introduction of Vision Transformer, a radical
paradigm shift in broad computer vision. A similar trend is followed in medical
imaging, UNet, one of the most influential architectures, has been redesigned
with transformers. Recently, the efficacy of convolutional models in vision is
being reinvestigated by seminal works such as ConvNext, which elevates a ResNet
to Swin Transformer level. Deriving inspiration from this, we aim to improve a
purely convolutional UNet model so that it can be on par with the
transformer-based models, e.g, Swin-Unet or UCTransNet. We examined several
advantages of the transformer-based UNet models, primarily long-range
dependencies and cross-level skip connections. We attempted to emulate them
through convolution operations and thus propose, ACC-UNet, a completely
convolutional UNet model that brings the best of both worlds, the inherent
inductive biases of convnets with the design decisions of transformers.
ACC-UNet was evaluated on 5 different medical image segmentation benchmarks and
consistently outperformed convnets, transformers, and their hybrids. Notably,
ACC-UNet outperforms state-of-the-art models Swin-Unet and UCTransNet by $2.64
\pm 2.54\%$ and $0.45 \pm 1.61\%$ in terms of dice score, respectively, while
using a fraction of their parameters ($59.26\%$ and $24.24\%$). Our codes are
available at https://github.com/kiharalab/ACC-UNet.
- Abstract(参考訳): この10年は、幅広いコンピュータビジョンにおける急進的なパラダイムシフトであるVision Transformerの導入が特徴である。
医療画像では同様の傾向が続き、最も影響力のあるアーキテクチャの一つであるUNetがトランスフォーマーで再設計された。
近年、視覚における畳み込みモデルの有効性は、ResNetをSwin Transformerレベルに高めるConvNextのようなセミナルな作品によって再検討されている。
このことからインスピレーションを得て、純粋な畳み込みUNetモデルを改善し、Swin-UnetやUCTransNetといったトランスフォーマーベースモデルと同等にすることを目指している。
我々は、主に長距離依存性とクロスレベルスキップ接続であるtransformerベースのunetモデルのいくつかの利点について検討した。
我々は、畳み込み操作を通じてそれらをエミュレートしようと試み、コンバータの設計決定と共振器の固有の帰納バイアスである両世界の長所をもたらす完全な畳み込みUNetモデルであるACC-UNetを提案する。
acc-unetは, 5種類の医用画像セグメンテーションベンチマークと, コンベネット, トランスフォーマー, ハイブリッドを一貫して上回って評価した。
特にACC-UNetは、最新モデルのSwin-UnetとUCTransNetをそれぞれ2.64 \pm 2.54\%$と0.45 \pm 1.61\%$で上回り、パラメータのごく一部(59.26\%$と24.24\%$)を使用する。
私たちのコードはhttps://github.com/kiharalab/acc-unetで利用可能です。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Joint rotational invariance and adversarial training of a dual-stream
Transformer yields state of the art Brain-Score for Area V4 [3.3504365823045044]
両ストリーム変換器,CrossViT$textita la$ Chen et al. (2021) が,全視覚カテゴリーで平均2位となることを示す。
我々の現在のTransformerベースのモデルは、前面V1のようなモジュールを統合する生物学的にインスパイアされたCNN(ResNet50)よりも、V4、IT、ビヘイビアの領域で説明可能な分散を実現しています。
論文 参考訳(メタデータ) (2022-03-08T23:08:35Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。