論文の概要: FsaNet: Frequency Self-attention for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2211.15595v1
- Date: Mon, 28 Nov 2022 17:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:39:33.994134
- Title: FsaNet: Frequency Self-attention for Semantic Segmentation
- Title(参考訳): FsaNet: セマンティックセグメンテーションのための周波数自己注意
- Authors: Fengyu Zhang, Ashkan Panahi, Guangjun Gao
- Abstract要約: 低周波自己注意は全周波と比較して非常に近いあるいは良い性能が得られることを示す。
他のResNet101ベースの自己アテンションネットワークと比較して、FsaNetは新たな最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 5.495952636982018
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Considering the spectral properties of images, we propose a new
self-attention mechanism with highly reduced computational complexity, up to a
linear rate. To better preserve edges while promoting similarity within
objects, we propose individualized processes over different frequency bands. In
particular, we study a case where the process is merely over low-frequency
components. By ablation study, we show that low frequency self-attention can
achieve very close or better performance relative to full frequency even
without retraining the network. Accordingly, we design and embed novel
plug-and-play modules to the head of a CNN network that we refer to as FsaNet.
The frequency self-attention 1) takes low frequency coefficients as input, 2)
can be mathematically equivalent to spatial domain self-attention with linear
structures, 3) simplifies token mapping ($1\times1$ convolution) stage and
token mixing stage simultaneously. We show that the frequency self-attention
requires $87.29\% \sim 90.04\%$ less memory, $96.13\% \sim 98.07\%$ less FLOPs,
and $97.56\% \sim 98.18\%$ in run time than the regular self-attention.
Compared to other ResNet101-based self-attention networks, FsaNet achieves a
new state-of-the-art result ($83.0\%$ mIoU) on Cityscape test dataset and
competitive results on ADE20k and VOCaug.
- Abstract(参考訳): 画像のスペクトル特性を考慮し,線形速度まで計算複雑性を低減した新しい自己追尾機構を提案する。
オブジェクト内の類似性を促進しつつエッジの保存性を向上させるため,周波数帯域の異なる個別化プロセスを提案する。
特に, プロセスが低周波成分上のみである場合について検討する。
アブレーション研究により,低周波自己注意は,ネットワークを再トレーニングすることなく,全周波に対して非常に近い,あるいは良好な性能が得られることを示した。
そこで我々は,FsaNetと呼ぶCNNネットワークの先頭に,新しいプラグアンドプレイモジュールを設計し,組み込む。
周波数自己注意
1)低周波係数を入力とする。
2) 線形構造を持つ空間領域自己完結と数学的に等価である。
3) トークンマッピング(1\times1$畳み込み)ステージとトークンの混合ステージを同時に単純化する。
周波数自己アテンションに要するメモリは 87.29 % \sim 90.04 %$ メモリは 96.13 % \sim 98.07 % $ FLOPs と 97.56 % \sim 98.18 %$ である。
他のResNet101ベースのセルフアテンションネットワークと比較して、FsaNetはCityscapeのテストデータセットとADE20kとVOCaugの競合する結果に対して、最先端の新たな結果(83.0\%$ mIoU)を達成した。
関連論文リスト
- Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。
本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。
Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-22T19:45:01Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文 参考訳(メタデータ) (2023-05-31T03:42:38Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z) - Hybrid Transformer/CTC Networks for Hardware Efficient Voice Triggering [8.103294902922036]
本稿では,2パス音声トリガ検出システムの設計について考察する。
候補セグメントの再スコア付けに使用される第2パスのネットワークに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-05T19:16:33Z) - ULSAM: Ultra-Lightweight Subspace Attention Module for Compact
Convolutional Neural Networks [4.143032261649983]
Ultra-Lightweight Subspace Attention Mechanism(ULSAM)は、エンドツーエンドのトレーニングが可能で、コンパクト畳み込みニューラルネットワーク(CNN)のプラグアンドプレイモジュールとしてデプロイできる。
FLOPとパラメータカウントの両方において$approx$13%と$approx$25%の削減を実現し、ImageNet-1Kおよびきめ細かい画像分類データセット上で、0.27%以上の精度と1%以上の精度で、MobileNet-V2のFLOPとパラメータカウントを削減した。
論文 参考訳(メタデータ) (2020-06-26T17:05:43Z) - Efficient Content-Based Sparse Attention with Routing Transformers [34.83683983648021]
自己注意は、シーケンス長に関する二次計算とメモリ要求に悩まされる。
本研究は,関心の問合せとは無関係なコンテンツへのアロケートやメモリの参加を避けるために,動的スパースアテンションパターンを学習することを提案する。
論文 参考訳(メタデータ) (2020-03-12T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。