論文の概要: SPANet: Frequency-balancing Token Mixer using Spectral Pooling
Aggregation Modulation
- arxiv url: http://arxiv.org/abs/2308.11568v1
- Date: Tue, 22 Aug 2023 17:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:19:01.509860
- Title: SPANet: Frequency-balancing Token Mixer using Spectral Pooling
Aggregation Modulation
- Title(参考訳): SPANet:スペクトルプール凝集変調を用いた周波数バランストケミキサ
- Authors: Guhnoo Yun, Juhan Yoo, Kijung Kim, Jeongho Lee, Dong Hwan Kim
- Abstract要約: 近年の研究では、自己注意は(畳み込みとは対照的に)ローパスフィルタのように振る舞うことが示されており、そのハイパスフィルタリング能力はモデル性能を向上させる。
畳み込み操作における低域通過フィルタの改善も性能改善につながることを観察する。
本稿では,高周波数成分と低周波数成分のバランスの取れた表現を捕捉する最適なトークンミキサーを提案する。
- 参考スコア(独自算出の注目度): 5.174808367448261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that self-attentions behave like low-pass filters (as
opposed to convolutions) and enhancing their high-pass filtering capability
improves model performance. Contrary to this idea, we investigate existing
convolution-based models with spectral analysis and observe that improving the
low-pass filtering in convolution operations also leads to performance
improvement. To account for this observation, we hypothesize that utilizing
optimal token mixers that capture balanced representations of both high- and
low-frequency components can enhance the performance of models. We verify this
by decomposing visual features into the frequency domain and combining them in
a balanced manner. To handle this, we replace the balancing problem with a mask
filtering problem in the frequency domain. Then, we introduce a novel
token-mixer named SPAM and leverage it to derive a MetaFormer model termed as
SPANet. Experimental results show that the proposed method provides a way to
achieve this balance, and the balanced representations of both high- and
low-frequency components can improve the performance of models on multiple
computer vision tasks. Our code is available at
$\href{https://doranlyong.github.io/projects/spanet/}{\text{https://doranlyong.github.io/projects/spanet/}}$.
- Abstract(参考訳): 近年の研究では、自己注意は(畳み込みとは対照的に)ローパスフィルタのように振る舞うことが示されており、そのハイパスフィルタリング能力はモデル性能を向上させる。
これに対し,既存の畳み込みモデルとスペクトル解析を併用して検討し,畳み込み操作における低パスフィルタの改善が性能向上につながることを観察する。
この観測から,高周波数成分と低周波数成分のバランス表現を捕捉する最適なトークンミキサーを用いることで,モデルの性能を向上させることができると仮定する。
視覚的特徴を周波数領域に分解し、それらをバランスよく組み合わせて検証する。
これに対応するために、周波数領域におけるバランス問題をマスクフィルタリング問題に置き換える。
そこで,SPAMと呼ばれる新しいトークンミキサーを導入し,SPANetと呼ばれるMetaFormerモデルを導出する。
実験の結果,提案手法はこのバランスを実現する方法を提供し,高周波数成分と低周波成分のバランスの取れた表現により,複数のコンピュータビジョンタスクにおけるモデルの性能が向上することが示された。
私たちのコードは$\href{https://doranlyong.github.io/projects/spanet/}{\text{https://doranlyong.github.io/projects/spanet/}}$で入手できる。
関連論文リスト
- DI-MaskDINO: A Joint Object Detection and Instance Segmentation Model [67.56918651825056]
MaskDinoの開始変圧器デコーダ層から中間結果を調べる際に, 物体検出遅延がインスタンスセグメンテーションの遅れ(すなわち, 性能不均衡)の原因となる。
本稿では,DI-MaskDINOモデルを提案する。その中核となる考え方は,検出・セグメンテーションの不均衡を緩和し,最終的な性能を改善することである。
DI-MaskDINOはCOCOとBDD100Kベンチマークで既存のジョイントオブジェクト検出とインスタンスセグメンテーションモデルを上回っている。
論文 参考訳(メタデータ) (2024-10-22T05:22:49Z) - Balancing Embedding Spectrum for Recommendation [7.523823738965443]
表現は埋め込み空間全体の部分空間にまたがる傾向を示し、最適解が得られ、モデルの容量が減少することを示した。
トレーニング中の埋め込みのスペクトル分布のバランスをとるために,DirectSpecと呼ばれる新しい手法を提案する。
また,無関係なサンプルをより効率的に最適化するために,自己ペース勾配を用いた拡張型DirectSpec+を提案する。
論文 参考訳(メタデータ) (2024-06-17T18:59:43Z) - FiGURe: Simple and Efficient Unsupervised Node Representations with
Filter Augmentations [1.9922905420195374]
本稿では,固有スペクトルの異なる部分を取得するための簡易なフィルタに基づく拡張法を提案する。
これらの異なるフィルタをまたいで同じ重みを共有することは可能であり、計算負荷を低減できることを示す。
さらに、従来の研究では、下流タスクでの優れたパフォーマンスには高次元表現が必要であることが示されている。
論文 参考訳(メタデータ) (2023-10-03T08:54:06Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Filter Pruning for Efficient CNNs via Knowledge-driven Differential
Filter Sampler [103.97487121678276]
フィルタプルーニングは同時に計算を加速し、CNNのメモリオーバーヘッドを低減する。
本稿では,MFM(Masked Filter Modeling)フレームワークを用いた知識駆動型微分フィルタサンプリング(KDFS)を提案する。
論文 参考訳(メタデータ) (2023-07-01T02:28:41Z) - Group Orthogonalization Regularization For Vision Models Adaptation and
Robustness [31.43307762723943]
同じ層内のフィルタ群間の正則性を促進する計算効率の良い正規化手法を提案する。
実験により,近年の拡散モデルと視覚変換器(ViT)の適応手法に組み込むと,この正規化により下流タスクの性能が向上することが示された。
論文 参考訳(メタデータ) (2023-06-16T17:53:16Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Simpler is better: spectral regularization and up-sampling techniques
for variational autoencoders [1.2234742322758418]
ニューラルネットワークに基づく生成モデルのスペクトル挙動のキャラクタリゼーションは未解決のままである。
最近の研究は、生成的対向ネットワークと、実画像と生成画像の高周波の相違に重点を置いている。
変分オートエンコーダ(VAE)のための単純な2次元フーリエ変換に基づくスペクトル正規化損失を提案する。
論文 参考訳(メタデータ) (2022-01-19T11:49:57Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。