論文の概要: A Holistic Evaluation of Piano Sound Quality
- arxiv url: http://arxiv.org/abs/2310.04722v1
- Date: Sat, 7 Oct 2023 07:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:20:02.404152
- Title: A Holistic Evaluation of Piano Sound Quality
- Title(参考訳): ピアノの音質の総合的評価
- Authors: Monan Zhou, Shangda Wu, Shaohua Ji, Zijin Li, Wei Li
- Abstract要約: 本研究では,異なるピアノの音質について検討した。
畳み込みニューラルネットワーク(CNN)の様々な事前学習モデルの微調整結果を比較して最適なピアノ分類モデルを選択する。
その結果、音楽的に訓練された個人は、異なるピアノの音質の違いを区別できることがわかった。
- 参考スコア(独自算出の注目度): 2.121000782202525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to develop a holistic evaluation method for piano sound
quality to assist in purchasing decisions. Unlike previous studies that focused
on the effect of piano performance techniques on sound quality, this study
evaluates the inherent sound quality of different pianos. To derive quality
evaluation systems, the study uses subjective questionnaires based on a piano
sound quality dataset. The method selects the optimal piano classification
models by comparing the fine-tuning results of different pre-training models of
Convolutional Neural Networks (CNN). To improve the interpretability of the
models, the study applies Equivalent Rectangular Bandwidth (ERB) analysis. The
results reveal that musically trained individuals are better able to
distinguish between the sound quality differences of different pianos. The best
fine-tuned CNN pre-trained backbone achieves a high accuracy of 98.3\% as the
piano classifier. However, the dataset is limited, and the audio is sliced to
increase its quantity, resulting in a lack of diversity and balance, so we use
focal loss to reduce the impact of data imbalance. To optimize the method, the
dataset will be expanded, or few-shot learning techniques will be employed in
future research.
- Abstract(参考訳): 本稿では,ピアノ音質の総合評価手法を開発し,意思決定を支援することを目的とする。
ピアノ演奏技術が音質に与える影響に着目した先行研究とは異なり,本研究は異なるピアノの固有の音質を評価する。
品質評価システムを導出するために,ピアノ音質データセットに基づく主観的アンケートを用いた。
畳み込みニューラルネットワーク(CNN)の様々な事前学習モデルの微調整結果を比較し,最適なピアノ分類モデルを選択する。
モデルの解釈可能性を改善するために,同値矩形帯域幅(ERB)解析を適用した。
その結果、音楽訓練を受けた個人は、異なるピアノの音質の違いを区別できることがわかった。
最高の微調整されたCNNトレーニングバックボーンは、ピアノ分類器として98.3\%の精度を達成する。
しかし、データセットは限られており、音声をスライスして量を増やし、結果として多様性とバランスが欠如するため、データ不均衡の影響を減らすために焦点損失を使う。
この手法を最適化するために、データセットを拡張したり、数発の学習技術を使って将来の研究を行う。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification [12.986535715303331]
カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。
不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。
論文 参考訳(メタデータ) (2024-03-13T09:43:14Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Data-Driven Analysis of Robust Automatic Piano Transcription [16.686703489636734]
近年の進歩は、より正確なシステムを生み出すために、新しいニューラルネットワークアーキテクチャを適用することに焦点を当てている。
トレーニングデータの音響特性に対して,これらのモデルが非常に過度に適合することを示す。
トレーニングデータを見ることなく,MAPSデータセット上で88.4F1スコアの最先端のノートオンセット精度を実現する。
論文 参考訳(メタデータ) (2024-02-02T14:11:23Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。
目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文 参考訳(メタデータ) (2022-04-01T06:22:23Z) - Bias-Aware Loss for Training Image and Speech Quality Prediction Models
from Multiple Datasets [13.132388683797503]
学習中の各データセットのバイアスを線形関数で推定するバイアス認識損失関数を提案する。
合成および主観的画像および音声品質データセットにおける品質予測モデルの訓練と検証により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-04-20T19:20:11Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。