論文の概要: Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder
- arxiv url: http://arxiv.org/abs/2008.06867v1
- Date: Sun, 16 Aug 2020 09:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:00:10.930789
- Title: Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder
- Title(参考訳): フローベースニューラルボコーダにおける高忠実度音声生成のための音響デクエント化
- Authors: Hyun-Wook Yoon, Sang-Hoon Lee, Hyeong-Rae Noh, Seong-Whan Lee
- Abstract要約: フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
- 参考スコア(独自算出の注目度): 29.63675159839434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent works, a flow-based neural vocoder has shown significant
improvement in real-time speech generation task. The sequence of invertible
flow operations allows the model to convert samples from simple distribution to
audio samples. However, training a continuous density model on discrete audio
data can degrade model performance due to the topological difference between
latent and actual distribution. To resolve this problem, we propose audio
dequantization methods in flow-based neural vocoder for high fidelity audio
generation. Data dequantization is a well-known method in image generation but
has not yet been studied in the audio domain. For this reason, we implement
various audio dequantization methods in flow-based neural vocoder and
investigate the effect on the generated audio. We conduct various objective
performance assessments and subjective evaluation to show that audio
dequantization can improve audio generation quality. From our experiments,
using audio dequantization produces waveform audio with better harmonic
structure and fewer digital artifacts.
- Abstract(参考訳): 近年の研究では、フローベースのニューラルボコーダがリアルタイム音声生成タスクにおいて大幅に改善されている。
可逆フロー操作のシーケンスにより、モデルは単純な分布からサンプルをオーディオサンプルに変換することができる。
しかし, 離散音声データに対する連続密度モデルの学習は, 潜在分布と実分布の位相差により, モデル性能を低下させる可能性がある。
この問題を解決するため,フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
データ量化は画像生成においてよく知られた手法であるが、まだ音声領域では研究されていない。
そこで我々は,フローベースニューラルボコーダに様々な音声復調手法を実装し,生成した音声に与える影響について検討する。
様々な客観的な性能評価と主観評価を行い、音声の復調により音質が向上することを示す。
実験では,高調波構造とデジタルアーチファクトの少ない波形音声を生成する。
関連論文リスト
- Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Hierarchical Diffusion Models for Singing Voice Neural Vocoder [21.118585353100634]
歌声ニューラルボコーダの階層的拡散モデルを提案する。
実験により,複数の歌手に対して高品質な歌唱音声を生成する方法が得られた。
論文 参考訳(メタデータ) (2022-10-14T04:30:09Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。