Fugu-MT 論文翻訳(概要): Multiscale Attention via Wavelet Neural Operators for Vision Transformers

論文の概要: Multiscale Attention via Wavelet Neural Operators for Vision Transformers

arxiv url: http://arxiv.org/abs/2303.12398v1
Date: Wed, 22 Mar 2023 09:06:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 14:32:07.505839
Title: Multiscale Attention via Wavelet Neural Operators for Vision Transformers
Title（参考訳）: 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション
Authors: Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani, Morteza Mardani
Abstract要約: トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
参考スコア（独自算出の注目度）: 5.66839981364227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN).
Abstract（参考訳）: トランスフォーマーはコンピュータビジョンで広く成功を収めた。彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。 vit の注意を mwa に置き換え,cifar と imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注意よりも大幅な改善が見られた。

関連論文リスト

FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
PiT: Progressive Diffusion Transformer [50.46345527963736]
Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
論文参考訳（メタデータ） (2025-05-19T15:02:33Z)
CVVNet: A Cross-Vertical-View Network for Gait Recognition [3.9124245851778032]
本稿では,頑健な縦方向歩行認識のための周波数アグリゲーションアーキテクチャCVVNetを提案する。 CVVNetは最先端のパフォーマンスを達成し、DroneGaitは8.6%、Gait3Dは2%だった。
論文参考訳（メタデータ） (2025-05-03T14:53:20Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
DiffFNO: Diffusion Fourier Neural Operator [8.895165270489167]
重み付きフーリエニューラル演算子(WFNO)により強化された任意のスケール超解像のための新しい拡散フレームワークDiffFNOを紹介する。 DiffFNOは、PSNRの2～4dBのマージンで、様々なスケーリング要因にまたがる既存の手法よりも優れた、最先端のSOTA(State-of-the-art)結果が得られることを示す。提案手法は,高精度かつ計算効率の両面において,超解像の新たな標準を定めている。
論文参考訳（メタデータ） (2024-11-15T03:14:11Z)
TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師型イメージデノベーション(SSID)において一般的なネットワークアーキテクチャである。本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。
論文参考訳（メタデータ） (2024-04-11T15:39:10Z)
FViT: A Focal Vision Transformer with Gabor Filter [6.237269022600682]
視覚変換器とガボルフィルタを組み合わせる利点について論じる。畳み込みを用いた学習可能なGaborフィルタ(LGF)を提案する。バイオニックフォカルビジョン(BFV)ブロックはLGFに基づいて設計されている。 Focal Vision Transformers (FViTs) と呼ばれるピラミッドバックボーンネットワークの統一的で効率的なファミリーを開発した。
論文参考訳（メタデータ） (2024-02-17T15:03:25Z)
Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文参考訳（メタデータ） (2023-07-26T07:42:28Z)
Lightweight Structure-Aware Attention for Visual Understanding [16.860625620412943]
視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
論文参考訳（メタデータ） (2022-11-29T15:20:14Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
OmniNet: Omnidirectional Representations from Transformers [49.23834374054286]
本稿ではトランスフォーマー(OmniNet)からのOmnidirect Representationsを提案する。 OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。自動回帰言語モデリング、機械翻訳、長距離アリーナ(LRA)、画像認識に関する実験が行われている。
論文参考訳（メタデータ） (2021-03-01T15:31:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。