論文の概要: Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2407.16691v1
- Date: Tue, 23 Jul 2024 17:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:16:18.574867
- Title: Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いた個々の楽器トラックの自動等化
- Authors: Florian Mockenhaupt, Joscha Simon Rieber, Shahan Nercessian,
- Abstract要約: 本稿では,個々の楽器トラックの自動等化のための新しい手法を提案する。
本手法は,対象とする理想スペクトルを選択するために,音源記録中に存在する機器を同定することから始める。
我々は、従来確立されていた最先端技術に対する改善を実証する、微分可能なパラメトリック等化器マッチングニューラルネットワークを構築した。
- 参考スコア(独自算出の注目度): 2.5944208050492183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for the automatic equalization of individual musical instrument tracks. Our method begins by identifying the instrument present within a source recording in order to choose its corresponding ideal spectrum as a target. Next, the spectral difference between the recording and the target is calculated, and accordingly, an equalizer matching model is used to predict settings for a parametric equalizer. To this end, we build upon a differentiable parametric equalizer matching neural network, demonstrating improvements relative to previously established state-of-the-art. Unlike past approaches, we show how our system naturally allows real-world audio data to be leveraged during the training of our matching model, effectively generating suitably produced training targets in an automated manner mirroring conditions at inference time. Consequently, we illustrate how fine-tuning our matching model on such examples considerably improves parametric equalizer matching performance in real-world scenarios, decreasing mean absolute error by 24% relative to methods relying solely on random parameter sampling techniques as a self-supervised learning strategy. We perform listening tests, and demonstrate that our proposed automatic equalization solution subjectively enhances the tonal characteristics for recordings of common instrument types.
- Abstract(参考訳): 本稿では,個々の楽器トラックの自動等化のための新しい手法を提案する。
本手法は,対象とする理想スペクトルを選択するために,音源記録中に存在する機器を同定することから始める。
次に、記録と目標とのスペクトル差を算出し、等化器マッチングモデルを用いてパラメトリック等化器の設定を予測する。
この目的のために我々は,従来確立されていた最先端技術に対する改善を示す,微分可能なパラメトリック等化器マッチングニューラルネットワークを構築した。
過去のアプローチとは違って,本システムでは,マッチングモデルのトレーニング中に,実世界の音声データを自然に活用し,推論時の自動ミラーリング条件で,適切に生成されたトレーニング目標を効果的に生成する方法を示す。
その結果、実世界のシナリオにおけるパラメトリック等化器マッチング性能を大幅に向上させ、自己教師付き学習戦略としてランダムパラメータサンプリング技術にのみ依存する手法と比較して平均絶対誤差を24%削減した。
我々は,聴取試験を行い,提案した自動等化解が共通楽器の録音における音色特性を主観的に向上させることを示した。
関連論文リスト
- Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - Serenade: A Model for Human-in-the-loop Automatic Chord Estimation [1.6385815610837167]
そこで本研究では,Human-in-the-loopアプローチにより,モデルのみのアプローチよりも高調波解析性能が向上することを示す。
我々は,ポピュラー音楽のデータセットを用いてモデル評価を行い,本手法を用いることで,モデルのみのアプローチよりも高調波解析性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-17T11:31:29Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Optimizing model-agnostic Random Subspace ensembles [5.680512932725364]
教師あり学習のためのモデルに依存しないアンサンブルアプローチを提案する。
提案手法は、ランダム部分空間アプローチのパラメトリックバージョンを用いてモデルのアンサンブルを学習することとを交互に行う。
シミュレーションおよび実世界のデータセット上で,予測と特徴ランキングの両面で,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T13:58:23Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - A Hybrid Approach to Audio-to-Score Alignment [13.269759433551478]
オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。
標準的なアライメント手法は動的時間ウォーピング(DTW)に基づいており、手作りの機能を採用している。
本稿では,DTWに基づく自動アライメント手法の事前処理ステップとしてニューラルネットワークの利用について検討する。
論文 参考訳(メタデータ) (2020-07-28T16:04:19Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。