論文の概要: Global Average Feature Augmentation for Robust Semantic Segmentation with Transformers
- arxiv url: http://arxiv.org/abs/2412.01941v2
- Date: Sat, 14 Dec 2024 00:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:12.929440
- Title: Global Average Feature Augmentation for Robust Semantic Segmentation with Transformers
- Title(参考訳): 変圧器を用いたロバストなセマンティックセマンティックセグメンテーションのための大域的平均的特徴増強
- Authors: Alberto Gonzalo Rodriguez Salgado, Maying Shen, Philipp Harzig, Peter Mayer, Jose M. Alvarez,
- Abstract要約: セグメンテーションのための視覚変換器のロバスト性を向上させるために,チャネルワイズ機能拡張を提案する。
CWFAは、トレーニング中に最小の計算オーバーヘッドでエンコーダ当たりの全世界的な摂動を推定する。
CWFAで強化されたSegFormer-B5は、新しい最先端の84.3%の保持率を実現し、最近発表されたFAN+STLよりも0.7%改善した。
- 参考スコア(独自算出の注目度): 15.628800834793806
- License:
- Abstract: Robustness to out-of-distribution data is crucial for deploying modern neural networks. Recently, Vision Transformers, such as SegFormer for semantic segmentation, have shown impressive robustness to visual corruptions like blur or noise affecting the acquisition device. In this paper, we propose Channel Wise Feature Augmentation (CWFA), a simple yet efficient feature augmentation technique to improve the robustness of Vision Transformers for semantic segmentation. CWFA applies a globally estimated perturbation per encoder with minimal compute overhead during training. Extensive evaluations on Cityscapes and ADE20K, with three state-of-the-art Vision Transformer architectures : SegFormer, Swin Transformer, and Twins demonstrate that CWFA-enhanced models significantly improve robustness without affecting clean data performance. For instance, on Cityscapes, a CWFA-augmented SegFormer-B1 model yields up to 27.7% mIoU robustness gain on impulse noise compared to the non-augmented SegFormer-B1. Furthermore, CWFA-augmented SegFormer-B5 achieves a new state-of-the-art 84.3% retention rate, a 0.7% improvement over the recently published FAN+STL.
- Abstract(参考訳): 分散データのロバスト性は、現代のニューラルネットワークの展開に不可欠である。
最近、セマンティックセグメンテーションのためのSegFormerのようなVision Transformerは、取得デバイスに影響を与えるぼやけやノイズのような視覚的腐敗に対して、印象的な堅牢性を示している。
本稿では,CWFA(Channel Wise Feature Augmentation)を提案する。
CWFAは、トレーニング中に最小の計算オーバーヘッドでエンコーダ当たりの全世界的な摂動を推定する。
SegFormer、Swin Transformer、Twinsの3つの最先端のVision TransformerアーキテクチャによるCityscapesとADE20Kの広範囲な評価は、クリーンなデータ性能に影響を与えることなく、CWFAによって強化されたモデルはロバスト性を大幅に改善することを示した。
例えば、Cityscapesでは、CWFAで強化されたSegFormer-B1モデルでは、非強化されたSegFormer-B1と比較して、インパルスノイズに対して最大27.7% mIoUロバスト性が向上する。
さらに、CWFAで強化されたSegFormer-B5は、新しい最先端の84.3%の保持率を実現し、最近発表されたFAN+STLよりも0.7%改善した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - WegFormer: Transformers for Weakly Supervised Semantic Segmentation [32.3201557200616]
この作業では、Transformerを導入し、WegFormerと呼ばれるシンプルで効果的なWSSSフレームワークを構築します。
既存のCNNベースの方法とは異なり、WegFormerはVision Transformerを分類器として使用し、高品質な擬似セグメンテーションマスクを生成する。
WegFormerはPASCAL VOCデータセット上で最先端の70.5% mIoUを達成し、以前のベストメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-16T06:50:31Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。