論文の概要: Neural Analysis and Synthesis: Reconstructing Speech from
Self-Supervised Representations
- arxiv url: http://arxiv.org/abs/2110.14513v2
- Date: Thu, 28 Oct 2021 13:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 13:37:17.230332
- Title: Neural Analysis and Synthesis: Reconstructing Speech from
Self-Supervised Representations
- Title(参考訳): 自己教師あり表現から音声を再構成するニューラル解析と合成
- Authors: Hyeong-Seok Choi, Juheon Lee, Wansoo Kim, Jie Hwan Lee, Hoon Heo,
Kyogu Lee
- Abstract要約: 本稿では,任意の音声信号の音声,ピッチ,速度を操作できるニューラルネットワークと合成フレームワークを提案する。
NANSYはボトルネック構造を一切必要とせず、高い再構築品質と制御性の両方を享受している。
NANSYは、ゼロショット音声変換、ピッチシフト、時間スケール修正など、いくつかのアプリケーションで大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 19.570118533573428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a neural analysis and synthesis (NANSY) framework that can
manipulate voice, pitch, and speed of an arbitrary speech signal. Most of the
previous works have focused on using information bottleneck to disentangle
analysis features for controllable synthesis, which usually results in poor
reconstruction quality. We address this issue by proposing a novel training
strategy based on information perturbation. The idea is to perturb information
in the original input signal (e.g., formant, pitch, and frequency response),
thereby letting synthesis networks selectively take essential attributes to
reconstruct the input signal. Because NANSY does not need any bottleneck
structures, it enjoys both high reconstruction quality and controllability.
Furthermore, NANSY does not require any labels associated with speech data such
as text and speaker information, but rather uses a new set of analysis
features, i.e., wav2vec feature and newly proposed pitch feature, Yingram,
which allows for fully self-supervised training. Taking advantage of fully
self-supervised training, NANSY can be easily extended to a multilingual
setting by simply training it with a multilingual dataset. The experiments show
that NANSY can achieve significant improvement in performance in several
applications such as zero-shot voice conversion, pitch shift, and time-scale
modification.
- Abstract(参考訳): 本稿では,任意の音声信号の音声,ピッチ,速度を操作できるニューラル解析合成(nansy)フレームワークを提案する。
以前の研究の多くは、情報ボトルネックを利用して、制御可能な合成のために分析機能を歪めてしまうことに重点を置いている。
情報摂動に基づく新しいトレーニング戦略を提案することでこの問題に対処する。
この考え方は、元の入力信号(例えばフォルマント、ピッチ、周波数応答)の情報を摂動させることで、合成ネットワークは入力信号の再構成に必須の属性を選択的に取ることができる。
NANSYはボトルネック構造を必要としないため、高い再構築品質と制御性の両方を享受できる。
さらに、nansyは、テキストや話者情報などの音声データに関連するラベルを必要とせず、新しい分析機能、すなわちwav2vec機能と新しく提案されたピッチ機能であるyingramを使用して、完全な自己教師付きトレーニングを可能にする。
完全な自己教師付きトレーニングを活用することで、NANSYは、単にマルチランガルデータセットでトレーニングすることで、簡単にマルチランガル設定に拡張することができる。
実験により、NANSYはゼロショット音声変換、ピッチシフト、時間スケール修正などのいくつかの応用において、大幅な性能向上を達成できることが示された。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Neural Fourier Shift for Binaural Speech Rendering [16.957415282256758]
音源の位置, 方向, 音源から音声を描画するニューラルネットワークを提案する。
フーリエ空間における音声の描画を可能にする新しいネットワークアーキテクチャであるニューラルシフト(NFS)を提案する。
論文 参考訳(メタデータ) (2022-11-02T04:55:09Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Towards Lightweight Controllable Audio Synthesis with Conditional
Implicit Neural Representations [10.484851004093919]
入射神経表現(英語: Implicit Neural representations、INR)は、低次元関数を近似するニューラルネットワークである。
本研究では、音声合成のための生成フレームワークの軽量バックボーンとして、CINR(Conditional Implicit Neural Representations)の可能性に光を当てた。
論文 参考訳(メタデータ) (2021-11-14T13:36:18Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。