論文の概要: SpecTNT: a Time-Frequency Transformer for Music Audio
- arxiv url: http://arxiv.org/abs/2110.09127v1
- Date: Mon, 18 Oct 2021 09:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 08:06:13.459875
- Title: SpecTNT: a Time-Frequency Transformer for Music Audio
- Title(参考訳): SpecTNT:音楽オーディオのための時間周波数変換器
- Authors: Wei-Tsung Lu, Ju-Chiang Wang, Minz Won, Keunwoo Choi and Xuchen Song
- Abstract要約: SpecTNTは、入力時間周波数表現のスペクトルシーケンスと時間シーケンスの両方をモデル化するトランスフォーマーベースのアーキテクチャである。
実験において、SpecTNTは、音楽タグ付けとボーカルメロディ抽出における最先端のパフォーマンスを示し、コード認識のための競合性能を示す。
- 参考スコア(独自算出の注目度): 3.4298729855744026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have drawn attention in the MIR field for their remarkable
performance shown in natural language processing and computer vision. However,
prior works in the audio processing domain mostly use Transformer as a temporal
feature aggregator that acts similar to RNNs. In this paper, we propose
SpecTNT, a Transformer-based architecture to model both spectral and temporal
sequences of an input time-frequency representation. Specifically, we introduce
a novel variant of the Transformer-in-Transformer (TNT) architecture. In each
SpecTNT block, a spectral Transformer extracts frequency-related features into
the frequency class token (FCT) for each frame. Later, the FCTs are linearly
projected and added to the temporal embeddings (TEs), which aggregate useful
information from the FCTs. Then, a temporal Transformer processes the TEs to
exchange information across the time axis. By stacking the SpecTNT blocks, we
build the SpecTNT model to learn the representation for music signals. In
experiments, SpecTNT demonstrates state-of-the-art performance in music tagging
and vocal melody extraction, and shows competitive performance for chord
recognition. The effectiveness of SpecTNT and other design choices are further
examined through ablation studies.
- Abstract(参考訳): トランスフォーマーは、自然言語処理やコンピュータビジョンで顕著な性能を示すことでミール分野で注目を集めている。
しかし、以前のオーディオ処理領域では、ほとんどの場合、RTNに似た機能を持つ時間的特徴集約器としてTransformerを使用していた。
本稿では,入力時間-周波数表現のスペクトル列と時間系列の両方をモデル化するトランスフォーマティブアーキテクチャであるspectntを提案する。
具体的には,Transformer-in-Transformer (TNT) アーキテクチャの新しいバリエーションを紹介する。
各SpecTNTブロックにおいて、スペクトル変換器は各フレームの周波数クラストークン(FCT)に周波数関連特徴を抽出する。
その後、FCTは線形に投影され、FCTから有用な情報を収集する時間埋め込み(TE)に追加される。
そして、テンポラリトランスがtesを処理して、タイム軸間で情報を交換する。
SpecTNTブロックを積み重ねることで、音楽信号の表現を学ぶためのSpecTNTモデルを構築する。
実験では、spectntは音楽のタギングや声のメロディ抽出における最先端のパフォーマンスを示し、コード認識における競争力を示す。
SpecTNTおよびその他の設計選択の有効性をアブレーション研究により検討した。
関連論文リスト
- Multi-Scale Temporal Difference Transformer for Video-Text Retrieval [10.509598789325782]
マルチスケール時間差変圧器(MSTDT)という変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
論文 参考訳(メタデータ) (2024-06-23T13:59:31Z) - Multi-resolution Time-Series Transformer for Long-term Forecasting [24.47302799009906]
様々な時間パターンを異なる解像度で同時モデリングするための新しいフレームワークMTST(Multi- resolution Time-Series Transformer)を提案する。
多くの既存の時系列変換器とは対照的に、異なるスケールで周期成分を抽出するのに適する相対的な位置符号化を用いる。
論文 参考訳(メタデータ) (2023-11-07T17:18:52Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - WFTNet: Exploiting Global and Local Periodicity in Long-term Time Series
Forecasting [61.64303388738395]
本稿では,長期連続予測のためのWavelet-Fourier Transform Network (WFTNet)を提案する。
さまざまな時系列データセットのテストでは、WFTNetは他の最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-20T13:44:18Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - TSTNN: Two-stage Transformer based Neural Network for Speech Enhancement
in the Time Domain [13.619563427916951]
提案モデルは,エンコーダ,2段変圧器モジュール(TSTM),マスキングモジュール,デコーダから構成される。
TSTMは、エンコーダ出力ステージからローカルおよびグローバル情報を効率よく抽出するために、4つの積み重ね2段変圧器ブロックを利用する。
デコーダは、拡張された音声を再構築するためにマスクエンコーダ機能を使用する。
論文 参考訳(メタデータ) (2021-03-18T00:38:17Z) - Non-linear frequency warping using constant-Q transformation for speech
emotion recognition [10.560561286520045]
音声感情認識のための定数Q変換(CQT)について検討する。
CQTに基づく時間周波数解析は、低周波数での高周波数分解能を持つ可変分光時間分解能を提供する。
バックエンド分類器としてディープニューラルネットワーク(DNN)を用いたSERのSTFTとCQTを用いた短期音響特性の比較分析を行った。
論文 参考訳(メタデータ) (2021-02-08T06:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。