論文の概要: FsaNet: Frequency Self-attention for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2211.15595v2
- Date: Sat, 22 Jul 2023 06:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:33:26.393248
- Title: FsaNet: Frequency Self-attention for Semantic Segmentation
- Title(参考訳): FsaNet: セマンティックセグメンテーションのための周波数自己注意
- Authors: Fengyu Zhang, Ashkan Panahi, Guangjun Gao
- Abstract要約: 計算量を大幅に削減した新しい自己認識機構を線形速度まで提案する。
アブレーション研究により,低周波自己注意は全周波と比較して非常に近い,あるいは良好な性能が得られることが示された。
周波数自己保持には8,7.29%のsim 90.04%のメモリ、9,6.13%のsim 98.07%のFLOP、97.56%のsim 98.18%のランタイムが必要である。
- 参考スコア(独自算出の注目度): 5.495952636982018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Considering the spectral properties of images, we propose a new
self-attention mechanism with highly reduced computational complexity, up to a
linear rate. To better preserve edges while promoting similarity within
objects, we propose individualized processes over different frequency bands. In
particular, we study a case where the process is merely over low-frequency
components. By ablation study, we show that low frequency self-attention can
achieve very close or better performance relative to full frequency even
without retraining the network. Accordingly, we design and embed novel
plug-and-play modules to the head of a CNN network that we refer to as FsaNet.
The frequency self-attention 1) requires only a few low frequency coefficients
as input, 2) can be mathematically equivalent to spatial domain self-attention
with linear structures, 3) simplifies token mapping ($1\times1$ convolution)
stage and token mixing stage simultaneously. We show that frequency
self-attention requires $87.29\% \sim 90.04\%$ less memory, $96.13\% \sim
98.07\%$ less FLOPs, and $97.56\% \sim 98.18\%$ in run time than the regular
self-attention. Compared to other ResNet101-based self-attention networks,
\ourM achieves a new \sArt result ($83.0\%$ mIoU) on Cityscape test dataset and
competitive results on ADE20k and VOCaug. \ourM can also enhance MASK R-CNN for
instance segmentation on COCO. In addition, utilizing the proposed module,
Segformer can be boosted on a series of models with different scales, and
Segformer-B5 can be improved even without retraining. Code is accessible at
\url{https://github.com/zfy-csu/FsaNet
- Abstract(参考訳): 画像のスペクトル特性を考慮し,線形速度まで計算複雑性を低減した新しい自己追尾機構を提案する。
オブジェクト内の類似性を促進しつつエッジの保存性を向上させるため,周波数帯域の異なる個別化プロセスを提案する。
特に, プロセスが低周波成分上のみである場合について検討する。
アブレーション研究により,低周波自己注意は,ネットワークを再トレーニングすることなく,全周波に対して非常に近い,あるいは良好な性能が得られることを示した。
そこで我々は,FsaNetと呼ぶCNNネットワークの先頭に,新しいプラグアンドプレイモジュールを設計し,組み込む。
周波数自己注意
1) 入力として少数の低周波係数しか必要としない。
2) 線形構造を持つ空間領域自己完結と数学的に等価である。
3) トークンマッピング(1\times1$畳み込み)ステージとトークンの混合ステージを同時に単純化する。
周波数自己アテンションに要するメモリは 87.29 % \sim 90.04 %$、メモリは 96.13 % \sim 98.07 %$ FLOPs と 97.56 % \sim 98.18 %$ である。
他のresnet101ベースのセルフアテンションネットワークと比較して、 \ourm は cityscape テストデータセットと ade20k と vocaug の競合結果で新たな \sart 結果 (83.0\%$ miou) を達成している。
\ourMは、COCO上のインスタンスセグメンテーションのためのMASK R-CNNを強化することもできる。
また、提案モジュールを利用することで、スケールの異なる一連のモデル上でsegformerをブーストすることができ、再トレーニングすることなくsegformer-b5を改善できる。
コードは \url{https://github.com/zfy-csu/FsaNet
関連論文リスト
- Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文 参考訳(メタデータ) (2023-05-31T03:42:38Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z) - Hybrid Transformer/CTC Networks for Hardware Efficient Voice Triggering [8.103294902922036]
本稿では,2パス音声トリガ検出システムの設計について考察する。
候補セグメントの再スコア付けに使用される第2パスのネットワークに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-05T19:16:33Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z) - Efficient Content-Based Sparse Attention with Routing Transformers [34.83683983648021]
自己注意は、シーケンス長に関する二次計算とメモリ要求に悩まされる。
本研究は,関心の問合せとは無関係なコンテンツへのアロケートやメモリの参加を避けるために,動的スパースアテンションパターンを学習することを提案する。
論文 参考訳(メタデータ) (2020-03-12T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。