論文の概要: SepTr: Separable Transformer for Audio Spectrogram Processing
- arxiv url: http://arxiv.org/abs/2203.09581v1
- Date: Thu, 17 Mar 2022 19:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 13:50:06.253072
- Title: SepTr: Separable Transformer for Audio Spectrogram Processing
- Title(参考訳): SepTr:オーディオスペクトログラム処理のための分離可能な変換器
- Authors: Nicolae-Catalin Ristea, Radu Tudor Ionescu, Fahad Shahbaz Khan
- Abstract要約: 分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 74.41172054754928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the successful application of vision transformers in multiple
computer vision tasks, these models have drawn the attention of the signal
processing community. This is because signals are often represented as
spectrograms (e.g. through Discrete Fourier Transform) which can be directly
provided as input to vision transformers. However, naively applying
transformers to spectrograms is suboptimal. Since the axes represent distinct
dimensions, i.e. frequency and time, we argue that a better approach is to
separate the attention dedicated to each axis. To this end, we propose the
Separable Transformer (SepTr), an architecture that employs two transformer
blocks in a sequential manner, the first attending to tokens within the same
frequency bin, and the second attending to tokens within the same time
interval. We conduct experiments on three benchmark data sets, showing that our
separable architecture outperforms conventional vision transformers and other
state-of-the-art methods. Unlike standard transformers, SepTr linearly scales
the number of trainable parameters with the input size, thus having a lower
memory footprint. Our code is available as open source at
https://github.com/ristea/septr.
- Abstract(参考訳): 複数のコンピュータビジョンタスクで視覚トランスフォーマーが成功した後、これらのモデルは信号処理コミュニティの注目を集めた。
これは信号がしばしばスペクトログラム(例えば離散フーリエ変換)として表現され、視覚変換器への入力として直接提供されるためである。
しかし、トランスフォーマーをスペクトログラムに適用するのは最適ではない。
軸は異なる次元、すなわち周波数と時間を表すので、より優れたアプローチは各軸に向けられた注意を分離することである。
この目的のために,2つの変圧器ブロックを逐次的に使用するアーキテクチャであるSeparable Transformer (SepTr) を提案する。
我々は3つのベンチマークデータセットで実験を行い、分離可能なアーキテクチャが従来の視覚変換器や他の最先端手法よりも優れていることを示す。
標準変換器とは異なり、SepTrは入力サイズでトレーニング可能なパラメータの数を線形にスケールし、メモリフットプリントが小さくなる。
私たちのコードは、https://github.com/ristea/septr.comでオープンソースとして利用できます。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Machine Learning for Brain Disorders: Transformers and Visual
Transformers [4.186575888568896]
トランスフォーマーは当初、自然言語処理(NLP)タスク用に導入されたが、コンピュータビジョンを含む多くのディープラーニング分野に急速に採用された。
本稿では、注意機構(Section 1)を導入し、次にビジョン変換器を含む基本変換器ブロックを紹介する。
最後に,画像分類以外のタスク,例えば検出,セグメンテーション,生成,ラベルなしのトレーニングに適用されるVisual Transformerを紹介する。
論文 参考訳(メタデータ) (2023-03-21T17:57:33Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。