論文の概要: Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
- arxiv url: http://arxiv.org/abs/2501.03038v1
- Date: Mon, 06 Jan 2025 14:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:01.097286
- Title: Piano Transcription by Hierarchical Language Modeling with Pretrained Roll-based Encoders
- Title(参考訳): 事前制約付きロールベースエンコーダを用いた階層型言語モデリングによるピアノ転写
- Authors: Dichucheng Li, Yongyi Zang, Qiuqiang Kong,
- Abstract要約: AMTは通常、ピアノロール出力を持つフレームレベルのシステムや、ノートレベルの予測を持つ言語モデル(LM)ベースのシステムを使用する。
両手法の強みを利用するために,事前学習したロールベースエンコーダとLMデコーダを組み合わせたハイブリッド方式を提案する。
本手法は,従来のピアノロール出力0.01,0.022をオンセットオフセット速度F1スコアで上回る。
- 参考スコア(独自算出の注目度): 8.23536196404666
- License:
- Abstract: Automatic Music Transcription (AMT), aiming to get musical notes from raw audio, typically uses frame-level systems with piano-roll outputs or language model (LM)-based systems with note-level predictions. However, frame-level systems require manual thresholding, while the LM-based systems struggle with long sequences. In this paper, we propose a hybrid method combining pre-trained roll-based encoders with an LM decoder to leverage the strengths of both methods. Besides, our approach employs a hierarchical prediction strategy, first predicting onset and pitch, then velocity, and finally offset. The hierarchical prediction strategy reduces computational costs by breaking down long sequences into different hierarchies. Evaluated on two benchmark roll-based encoders, our method outperforms traditional piano-roll outputs 0.01 and 0.022 in onset-offset-velocity F1 score, demonstrating its potential as a performance-enhancing plug-in for arbitrary roll-based music transcription encoder. We release the code of this work at https://github.com/yongyizang/AMT_train.
- Abstract(参考訳): Automatic Music Transcription (AMT)は、生のオーディオから音符を入手することを目的としており、通常、ピアノロール出力を持つフレームレベルのシステムや、音符レベルの予測を持つ言語モデル(LM)ベースのシステムを使用する。
しかし、フレームレベルのシステムは手動のしきい値を必要とするが、LMベースのシステムは長いシーケンスで苦労する。
本稿では,事前学習したロールベースエンコーダとLMデコーダを組み合わせたハイブリッド方式を提案する。
さらに,本手法では,まず開始とピッチ,次に速度,最後にオフセットを予測し,階層的な予測戦略を採用する。
階層予測戦略は、長い列を異なる階層に分割することで計算コストを削減する。
2つのベンチマークロールベースのエンコーダで評価し,従来のピアノロール出力0.01,0.022をオンセットオフセット速度F1スコアで上回り,任意のロールベースの楽曲書き起こしエンコーダの性能向上のためのプラグインとしての可能性を示した。
この作業のコードはhttps://github.com/yongyizang/AMT_train.comで公開しています。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Order-sensitive Neural Constituency Parsing [9.858565876426411]
本稿では, 従来のニューラルスパンベースCKYデコーダの改良手法を提案する。
従来のスパンベースの復号法とは対照的に、スパンの組み合わせスコアが順序に敏感なベースからより慎重に導出される、順序に敏感な戦略を導入する。
我々のデコーダは,低レベルスパンを高レベルスパンに組み合わせるための細粒度スコアリング方式を決定する際に,既存のスパンベースデコーダの一般化と見なすことができる。
論文 参考訳(メタデータ) (2022-11-01T12:31:30Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。