論文の概要: Improving Perceptual Quality of Drum Transcription with the Expanded
Groove MIDI Dataset
- arxiv url: http://arxiv.org/abs/2004.00188v5
- Date: Tue, 1 Dec 2020 18:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 19:32:57.582282
- Title: Improving Perceptual Quality of Drum Transcription with the Expanded
Groove MIDI Dataset
- Title(参考訳): 拡張Groove MIDIデータセットによるドラム転写の知覚品質の向上
- Authors: Lee Callender, Curtis Hawthorne, Jesse Engel
- Abstract要約: 拡張Groove MIDIデータセット(E-GMD)には43個のドラムキットから444時間のオーディオが含まれている。
我々はE-GMDを用いて,表現力学(速度)を予測して下流生成に使用する分類器を最適化し,音質を向上した聴取試験を行った。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Expanded Groove MIDI dataset (E-GMD), an automatic drum
transcription (ADT) dataset that contains 444 hours of audio from 43 drum kits,
making it an order of magnitude larger than similar datasets, and the first
with human-performed velocity annotations. We use E-GMD to optimize classifiers
for use in downstream generation by predicting expressive dynamics (velocity)
and show with listening tests that they produce outputs with improved
perceptual quality, despite similar results on classification metrics. Via the
listening tests, we argue that standard classifier metrics, such as accuracy
and F-measure score, are insufficient proxies of performance in downstream
tasks because they do not fully align with the perceptual quality of generated
outputs.
- Abstract(参考訳): 本稿では,43組のドラムキットから444時間分の音声を含む自動ドラム転写(adt)データセットであるextensed groove midi dataset (e-gmd)について紹介する。
我々は,e-gmdを用いて下流世代に使用する分類器の最適化を行い,表現力(速度)を予測し,分類指標の類似性にも拘わらず知覚品質が向上した出力を生成するリスニングテストを行った。
聴取試験では, 出力の知覚的品質と完全に一致しないため, 正解率やF値スコアなどの標準分類器の精度は, 下流タスクにおける性能の指標として不十分である。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Conditional Sound Generation Using Neural Discrete Time-Frequency
Representation Learning [42.95813372611093]
本稿では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。
これにより、長い範囲の依存関係をモデル化し、音クリップ内に局所的なきめ細かい構造を保持するという利点がある。
論文 参考訳(メタデータ) (2021-07-21T10:31:28Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - The MIDI Degradation Toolkit: Symbolic Music Augmentation and Correction [14.972219905728963]
我々はMIDI分解ツールキット (MDTK) を紹介し、音楽の抜粋を入力として含む関数を含む。
このツールキットを使って、AlteredとCorrupted MIDI Excerptsのデータセットバージョン1.0を作成します。
劣化の検出・分類・発見・修正が困難になる4つの課題を提案する。
論文 参考訳(メタデータ) (2020-09-30T19:03:35Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。