論文の概要: A Lightweight Instrument-Agnostic Model for Polyphonic Note
Transcription and Multipitch Estimation
- arxiv url: http://arxiv.org/abs/2203.09893v1
- Date: Fri, 18 Mar 2022 12:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 16:09:00.168924
- Title: A Lightweight Instrument-Agnostic Model for Polyphonic Note
Transcription and Multipitch Estimation
- Title(参考訳): 多音素音の転写とマルチピッチ推定のための軽量楽器非依存モデル
- Authors: Rachel M. Bittner, Juan Jos\'e Bosch, David Rubinstein, Gabriel
Meseguer-Brocal, Sebastian Ewert
- Abstract要約: 楽器の書き起こしのための軽量ニューラルネットワークを提案する。
我々のモデルは、フレームワイドのオンセット、乗算、ノートのアクティベーションを共同で予測するように訓練されている。
ベンチマークの結果、我々のシステムのメモ推定は、同等のベースラインよりもかなり優れていることが示されています。
- 参考スコア(独自算出の注目度): 6.131772929312604
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Music Transcription (AMT) has been recognized as a key enabling
technology with a wide range of applications. Given the task's complexity, best
results have typically been reported for systems focusing on specific settings,
e.g. instrument-specific systems tend to yield improved results over
instrument-agnostic methods. Similarly, higher accuracy can be obtained when
only estimating frame-wise $f_0$ values and neglecting the harder note event
detection. Despite their high accuracy, such specialized systems often cannot
be deployed in the real-world. Storage and network constraints prohibit the use
of multiple specialized models, while memory and run-time constraints limit
their complexity. In this paper, we propose a lightweight neural network for
musical instrument transcription, which supports polyphonic outputs and
generalizes to a wide variety of instruments (including vocals). Our model is
trained to jointly predict frame-wise onsets, multipitch and note activations,
and we experimentally show that this multi-output structure improves the
resulting frame-level note accuracy. Despite its simplicity, benchmark results
show our system's note estimation to be substantially better than a comparable
baseline, and its frame-level accuracy to be only marginally below those of
specialized state-of-the-art AMT systems. With this work we hope to encourage
the community to further investigate low-resource, instrument-agnostic AMT
systems.
- Abstract(参考訳): AMT(Automatic Music Transcription)は、幅広いアプリケーションで利用可能な重要な技術として認識されている。
タスクの複雑さを考えると、機器固有のシステムのような特定の設定に焦点を当てたシステムでは、最も良い結果が報告されている。
同様に、フレーム単位の$f_0$値のみを推定し、ハードノートイベント検出を無視する場合に高い精度が得られる。
精度が高いにもかかわらず、そのような特殊なシステムは現実世界には展開できないことが多い。
ストレージとネットワークの制約は複数の特別なモデルの使用を禁止し、メモリと実行時の制約は複雑さを制限する。
本稿では,多音素出力をサポートし,様々な楽器(ボーカルを含む)に一般化した,楽器転写のための軽量ニューラルネットワークを提案する。
本モデルでは,フレーム毎のオンセット,マルチピッチ,ノートのアクティベーションを共同で予測し,このマルチアウトプット構造がフレームレベルの音符精度を向上させることを実験的に示す。
その単純さにもかかわらず、ベンチマークの結果、システムの評価値は同等のベースラインよりもかなり優れており、フレームレベルの精度は特殊なamtシステムよりもわずかに低いことがわかった。
この作業により、コミュニティは低リソースで機器に依存しないATTシステムをさらに調査していきたいと考えています。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Classical Ensembles of Single-Qubit Quantum Variational Circuits for
Classification [0.0]
近年,量子普遍多機能アーキテクチャ (QAUM) を導入し, パルサー星の分類における表現性と性能の向上を示した。
本研究は,古典的なバギングとブースティング技術を用いた単一量子QAUM分類器の設計,実装,評価について報告する。
論文 参考訳(メタデータ) (2023-02-06T17:51:47Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Deep-Learning Architectures for Multi-Pitch Estimation: Towards Reliable
Evaluation [7.599399338954308]
マルチピッチ推定は、ポリフォニック録音におけるピッチの同時動作を検出することを目的としている。
本稿では,CNN,U-net構造,自己意図的コンポーネントに基づくアーキテクチャを実現する。
MusicNetとSchubert Winterreiseのデータセットを用いたマルチピッチ推定のために,これらのアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2022-02-18T13:52:21Z) - Machine Learning-enhanced Receive Processing for MU-MIMO OFDM Systems [15.423422040627331]
機械学習は、マルチユーザマルチインプットマルチアウトプット(MU-MIMO)受信処理を改善するために使用できる。
本稿では,従来の受信機の利点を保ちつつ,特定の部品をMLコンポーネントで強化する新たな戦略を提案する。
論文 参考訳(メタデータ) (2021-06-30T14:02:27Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。