論文の概要: Music Enhancement via Image Translation and Vocoding
- arxiv url: http://arxiv.org/abs/2204.13289v1
- Date: Thu, 28 Apr 2022 05:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-30 03:44:39.031071
- Title: Music Enhancement via Image Translation and Vocoding
- Title(参考訳): 画像翻訳とvocodingによる音楽エンハンスメント
- Authors: Nikhil Kandpal, Oriol Nieto, Zeyu Jin
- Abstract要約: 本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
- 参考スコア(独自算出の注目度): 14.356705444361832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consumer-grade music recordings such as those captured by mobile devices
typically contain distortions in the form of background noise, reverb, and
microphone-induced EQ. This paper presents a deep learning approach to enhance
low-quality music recordings by combining (i) an image-to-image translation
model for manipulating audio in its mel-spectrogram representation and (ii) a
music vocoding model for mapping synthetically generated mel-spectrograms to
perceptually realistic waveforms. We find that this approach to music
enhancement outperforms baselines which use classical methods for
mel-spectrogram inversion and an end-to-end approach directly mapping noisy
waveforms to clean waveforms. Additionally, in evaluating the proposed method
with a listening test, we analyze the reliability of common audio enhancement
evaluation metrics when used in the music domain.
- Abstract(参考訳): モバイルデバイスで捉えたようなコンシューマグレードの音楽録音は、一般的にバックグラウンドノイズ、リバーブ、マイクロフォンによるEQの形で歪みを含む。
本稿では,低品質な音楽録音を組み合わせて強化する深層学習手法を提案する。
(i)メル・スペクトログラム表現における音声操作のための画像から画像への変換モデル
(II)合成したメルスペクトルを知覚現実的な波形にマッピングする音楽ヴォコーディングモデル。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
さらに,提案手法を聴取試験により評価する際には,音楽領域で使用する場合の一般的な音声強調評価指標の信頼性を解析する。
関連論文リスト
- Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Multi-modal Conditional Bounding Box Regression for Music Score
Following [7.360807642941713]
本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。
条件付きニューラルネットワークアーキテクチャは、与えられた音楽演奏の各時点における完全なスコアシート画像におけるマッチング位置のx,y座標を直接予測する。
論文 参考訳(メタデータ) (2021-05-10T12:43:35Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。