論文の概要: Automatic Piano Transcription with Hierarchical Frequency-Time
Transformer
- arxiv url: http://arxiv.org/abs/2307.04305v1
- Date: Mon, 10 Jul 2023 02:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:20:12.186832
- Title: Automatic Piano Transcription with Hierarchical Frequency-Time
Transformer
- Title(参考訳): 階層周波数変換器を用いた自動ピアノ転写
- Authors: Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, Wei-Hsiang
Liao, Yuki Mitsufuji
- Abstract要約: hFT-Transformer (hFT-Transformer) は、2階層の周波数時間変換器アーキテクチャを用いる自動音楽書き起こし方式である。
提案手法をMAPSおよびMAESTRO v3.0.0データセットを用いて評価した。
- 参考スコア(独自算出の注目度): 10.461272968885043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taking long-term spectral and temporal dependencies into account is essential
for automatic piano transcription. This is especially helpful when determining
the precise onset and offset for each note in the polyphonic piano content. In
this case, we may rely on the capability of self-attention mechanism in
Transformers to capture these long-term dependencies in the frequency and time
axes. In this work, we propose hFT-Transformer, which is an automatic music
transcription method that uses a two-level hierarchical frequency-time
Transformer architecture. The first hierarchy includes a convolutional block in
the time axis, a Transformer encoder in the frequency axis, and a Transformer
decoder that converts the dimension in the frequency axis. The output is then
fed into the second hierarchy which consists of another Transformer encoder in
the time axis. We evaluated our method with the widely used MAPS and MAESTRO
v3.0.0 datasets, and it demonstrated state-of-the-art performance on all the
F1-scores of the metrics among Frame, Note, Note with Offset, and Note with
Offset and Velocity estimations.
- Abstract(参考訳): 長期のスペクトルと時間依存を考慮に入れることはピアノの自動転写に不可欠である。
これは、ポリフォニックピアノコンテンツ中の各音符の正確なオンセットとオフセットを決定する際に特に有用である。
この場合、周波数と時間軸の長期的な依存性を捉えるために、トランスフォーマーにおける自己着脱機構の能力に頼ることができる。
本稿では,2レベル階層の周波数-時間変換器アーキテクチャを用いた自動音楽書き起こし法であるhFT-Transformerを提案する。
第1階層は、時間軸内の畳み込みブロックと、周波数軸内のトランスフォーマーエンコーダと、周波数軸内の寸法を変換するトランスフォーマーデコーダとを含む。
次に出力は、タイム軸の別のトランスコーダで構成される第2階層に供給される。
提案手法をMAPSおよびMAESTRO v3.0.0データセットを用いて評価し,フレーム,ノート,オフセット付ノート,オフセット付ノートとベロシティ推定のすべてのF1スコアにおける最先端性能を実証した。
関連論文リスト
- F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。
提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-03T17:05:12Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Scoring Time Intervals using Non-Hierarchical Transformer For Automatic Piano Transcription [17.676304722651313]
本稿では, 変圧器の注目度に類似したスケール内積演算を用いて, 間隔を簡易に評価する方法を提案する。
理論的には、重複しない区間を符号化する特別な構造のため、内積演算は理想的なスコアリング行列を表すのに十分表現可能である。
次に,低分解能特徴写像のみで動作するエンコーダのみの構造化非階層トランスフォーマーバックボーンが,高精度かつ高精度にピアノ音符やペダルを転写可能であることを示す。
論文 参考訳(メタデータ) (2024-04-15T05:35:09Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Learning Spatial-Frequency Transformer for Visual Object Tracking [15.750739748843744]
最近のトラッカーはTransformerを採用して、広く使われているResNetを新しいバックボーンネットワークとして組み合わせたり置き換えたりしている。
これらの操作は、ターゲットオブジェクトの空間的先行を無視し、最適以下の結果をもたらす可能性があると信じている。
本稿では,GPHA(Spatial Prior and High- frequency emphasis Attention)を同時にモデル化した空間周波数変換器を提案する。
論文 参考訳(メタデータ) (2022-08-18T13:46:12Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - FNetAR: Mixing Tokens with Autoregressive Fourier Transforms [0.0]
本稿では、FNetARが因果言語モデリングのタスクにおいて、最先端の性能(25.8ppl)を維持していることを示す。
自己回帰フーリエ変換は、ほとんどのTransformerベースの時系列予測モデルにおけるパラメータとして使われる可能性がある。
論文 参考訳(メタデータ) (2021-07-22T21:24:02Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。