論文の概要: Streaming Piano Transcription Based on Consistent Onset and Offset Decoding with Sustain Pedal Detection
- arxiv url: http://arxiv.org/abs/2503.01362v1
- Date: Mon, 03 Mar 2025 09:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:12:34.721565
- Title: Streaming Piano Transcription Based on Consistent Onset and Offset Decoding with Sustain Pedal Detection
- Title(参考訳): 持続的なペダル検出による一貫性オンセットとオフセット復号に基づくピアノのストリーム化
- Authors: Weixing Wei, Jiahao Zhao, Yulun Wu, Kazuyoshi Yoshii,
- Abstract要約: 本稿では,音楽信号から音符のオンセットおよびオフセットイベントのシーケンスへと逐次変換することを目的とした,ストリーミング音声からMIDIへのピアノの書き起こし手法について述べる。
MAESTROデータセットを用いて実験したところ、提案したストリーミング手法は最先端のオフライン方式と同等かそれ以上に動作していた。
- 参考スコア(独自算出の注目度): 10.607017917148996
- License:
- Abstract: This paper describes a streaming audio-to-MIDI piano transcription approach that aims to sequentially translate a music signal into a sequence of note onset and offset events. The sequence-to-sequence nature of this task may call for the computationally-intensive transformer model for better performance, which has recently been used for offline transcription benchmarks and could be extended for streaming transcription with causal attention mechanisms. We assume that the performance limitation of this naive approach lies in the decoder. Although time-frequency features useful for onset detection are considerably different from those for offset detection, the single decoder is trained to output a mixed sequence of onset and offset events without guarantee of the correspondence between the onset and offset events of the same note. To overcome this limitation, we propose a streaming encoder-decoder model that uses a convolutional encoder aggregating local acoustic features, followed by an autoregressive Transformer decoder detecting a variable number of onset events and another decoder detecting the offset events for the active pitches with validation of the sustain pedal at each time frame. Experiments using the MAESTRO dataset showed that the proposed streaming method performed comparably with or even better than the state-of-the-art offline methods while significantly reducing the computational cost.
- Abstract(参考訳): 本稿では,音楽信号から音符のオンセットおよびオフセットイベントのシーケンスへと逐次変換することを目的とした,ストリーミング音声からMIDIへのピアノの書き起こし手法について述べる。
このタスクのシーケンシャル・ツー・シーケンスの性質は、最近オフラインの転写ベンチマークに使用され、因果的注意機構を備えたストリーミング転写に拡張される、より優れたパフォーマンスのための計算集約型トランスフォーマーモデルを要求するかもしれない。
このナイーブアプローチのパフォーマンス制限はデコーダにあると仮定する。
オンセット検出に有用な時間周波数特性はオフセット検出とはかなり異なるが、単一デコーダは、同一音符のオンセットイベントとオフセットイベントの対応性を保証することなく、オンセットイベントとオフセットイベントの混合シーケンスを出力するように訓練される。
この制限を克服するために、局所音響特徴を集約する畳み込みエンコーダを用いたストリーミングエンコーダモデルを提案し、続いて、可変数のオンセットイベントを検出する自己回帰トランスフォーマーデコーダと、各フレームにおける持続ペダルの検証によるアクティブピッチのオフセットイベントを検出する別のデコーダを提案する。
MAESTROデータセットを用いて実験したところ、提案したストリーミング手法は最先端のオフライン手法と同等かそれ以上に動作し、計算コストを大幅に削減することがわかった。
関連論文リスト
- Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。
その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-05-01T08:55:16Z) - Streaming Sequence Transduction through Dynamic Compression [55.0083843520833]
本稿では,ストリーム上の効率のよいシーケンス・ツー・シーケンス・トランスダクションを設計した新しいトランスフォーマーモデルであるSTAR(Stream Transduction with Anchor Representations)を紹介する。
STARは入力ストリームを動的にセグメント化して圧縮アンカー表現を生成し、自動音声認識(ASR)においてほぼロスレス圧縮(12x)を達成する
STARは、音声とテキストの同時タスクにおいて、セグメンテーションとレイテンシ品質のトレードオフが優れており、レイテンシ、メモリフットプリント、品質が最適化されている。
論文 参考訳(メタデータ) (2024-02-02T06:31:50Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Pedestrian Spatio-Temporal Information Fusion For Video Anomaly
Detection [1.5736899098702974]
歩行者の情報を統合するために, 異常検出手法を提案する。
出力フレームと真値との差に応じて異常検出を行う。
The experimental results on the CUHK Avenue and ShanghaiTech datasets shows that the proposed method is superior than the current mainstream video anomaly detection method。
論文 参考訳(メタデータ) (2022-11-18T06:41:02Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。
本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-01T01:34:28Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。