論文の概要: Context-aware Automatic Music Transcription
- arxiv url: http://arxiv.org/abs/2203.16294v1
- Date: Wed, 30 Mar 2022 13:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 19:52:08.264368
- Title: Context-aware Automatic Music Transcription
- Title(参考訳): 文脈認識による自動音楽書き起こし
- Authors: Federico Simonetta, Stavros Ntalampiras, Federico Avanzini
- Abstract要約: 本稿では,文脈関連情報を組み込んだ自動音楽書き起こしシステムを提案する。
最先端の心理学研究を動機として,ATTシステムの精度向上手法を提案する。
- 参考スコア(独自算出の注目度): 10.957528713294874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an Automatic Music Transcription system that incorporates
context-related information. Motivated by the state-of-art psychological
research, we propose a methodology boosting the accuracy of AMT systems by
modeling the adaptations that performers apply to successfully convey their
interpretation in any acoustical context. In this work, we show that exploiting
the knowledge of the source acoustical context allows reducing the error
related to the inference of MIDI velocity. The proposed model structure first
extracts the interpretation features and then applies the modeled performer
adaptations. Interestingly, such a methodology is extensible in a
straightforward way since only slight efforts are required to train completely
context-aware AMT models.
- Abstract(参考訳): 本稿では,文脈関連情報を組み込んだ自動音楽書き起こしシステムを提案する。
現状の心理研究によって動機づけられた本研究では,演奏者が任意の音響的文脈で解釈をうまく伝達するために適用する適応をモデル化することにより,ATTシステムの精度を高める手法を提案する。
本研究では,音源の音響的文脈の知識を活用すれば,MIDI速度の推測に関する誤差を低減できることを示す。
提案したモデル構造はまず解釈特徴を抽出し,モデル化されたパフォーマー適応を適用した。
興味深いことに、このような方法論は、完全にコンテキスト対応のAMTモデルをトレーニングするために、わずかな努力しか必要とされないため、簡単に拡張可能である。
関連論文リスト
- Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - Machine Learning Techniques in Automatic Music Transcription: A Systematic Survey [2.4895506645605123]
本稿では,音楽信号解析におけるAMT(Automatic Music Transcription)の役割について述べる。
顕著な進歩にもかかわらず、ATTシステムはまだ人間の専門家の精度に合わない。
従来の手法の限界に対処し,改善の道筋を提案することにより,完全自動化型ATTシステムに向けた今後の研究を推し進めることが目的である。
論文 参考訳(メタデータ) (2024-06-20T03:48:15Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文 参考訳(メタデータ) (2022-02-24T18:09:22Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - A Light-weight contextual spelling correction model for customizing
transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。
実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。
このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-17T08:14:37Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
論文 参考訳(メタデータ) (2020-03-12T20:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。