論文の概要: Mel Spectrogram Inversion with Stable Pitch
- arxiv url: http://arxiv.org/abs/2208.12782v1
- Date: Fri, 26 Aug 2022 17:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:39:34.340785
- Title: Mel Spectrogram Inversion with Stable Pitch
- Title(参考訳): 安定ピッチによるメル分光インバージョン
- Authors: Bruno Di Giorgi, Mark Levy, Richard Sharp
- Abstract要約: ボーコーダ(Vocoder)は、音声信号(通常はメルスペクトル)の低次元スペクトル表現を波形に変換することのできるモデルである。
近年,音声認識のために開発されたボコーダモデルは,高いリアリズムを実現する。
音声と比較して、音のテクスチャの構造は新たな課題をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vocoders are models capable of transforming a low-dimensional spectral
representation of an audio signal, typically the mel spectrogram, to a
waveform. Modern speech generation pipelines use a vocoder as their final
component. Recent vocoder models developed for speech achieve a high degree of
realism, such that it is natural to wonder how they would perform on music
signals. Compared to speech, the heterogeneity and structure of the musical
sound texture offers new challenges. In this work we focus on one specific
artifact that some vocoder models designed for speech tend to exhibit when
applied to music: the perceived instability of pitch when synthesizing
sustained notes. We argue that the characteristic sound of this artifact is due
to the lack of horizontal phase coherence, which is often the result of using a
time-domain target space with a model that is invariant to time-shifts, such as
a convolutional neural network. We propose a new vocoder model that is
specifically designed for music. Key to improving the pitch stability is the
choice of a shift-invariant target space that consists of the magnitude
spectrum and the phase gradient. We discuss the reasons that inspired us to
re-formulate the vocoder task, outline a working example, and evaluate it on
musical signals. Our method results in 60% and 10% improved reconstruction of
sustained notes and chords with respect to existing models, using a novel
harmonic error metric.
- Abstract(参考訳): ボコーダ(vocoder)は、オーディオ信号(通常はメル分光図)の低次元のスペクトル表現を波形に変換することのできるモデルである。
現代の音声生成パイプラインは、最終コンポーネントとしてvocoderを使用する。
近年,音声のために開発されたボコーダモデルは,音楽信号に対してどのように振る舞うのか疑問に思うほど,高いリアリズムを実現している。
音声と比較して、音質の不均一性と構造は新たな課題をもたらす。
本研究は,持続音符を合成する際のピッチの不安定性を知覚する,音声用に設計されたボコーダモデルが音楽に適用される傾向にある,特定のアーチファクトに焦点をあてる。
このアーチファクトの特徴音は水平位相コヒーレンスの欠如によるもので、畳み込みニューラルネットワークのような時間シフトに不変なモデルで時間領域のターゲット空間を使用することによって生じることが多い。
我々は音楽専用に設計された新しいvocoderモデルを提案する。
ピッチ安定性を改善する鍵となるのは、大きさスペクトルと位相勾配からなるシフト不変なターゲット空間を選択することである。
本稿では,Vocoderタスクを再フォーマットし,動作例を概説し,音楽信号で評価するきっかけとなった理由について論じる。
提案手法は,既存のモデルに対する持続音符と和音の再構成を,新しい高調波誤差計量を用いて60%および10%改善する。
関連論文リスト
- PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Towards Improving Harmonic Sensitivity and Prediction Stability for
Singing Melody Extraction [36.45127093978295]
本稿では,2つの仮定に基づいて,入力特徴量修正と訓練対象量修正を提案する。
後続高調波に対するモデルの感度を高めるため、離散z変換を用いた複合周波数と周期表現を修正した。
我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。
論文 参考訳(メタデータ) (2023-08-04T21:59:40Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Autoencoding Neural Networks as Musical Audio Synthesizers [0.0]
自動符号化ニューラルネットワークを用いた音声合成手法を提案する。
オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。
論文 参考訳(メタデータ) (2020-04-27T20:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。