論文の概要: Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations
- arxiv url: http://arxiv.org/abs/2104.00355v2
- Date: Fri, 2 Apr 2021 09:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 10:27:18.007679
- Title: Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations
- Title(参考訳): 離散不規則な自己スーパービジョン表現からの音声合成
- Authors: Adam Polyak, Yossi Adi, Jade Copet, Eugene Kharitonov, Kushal
Lakhotia, Wei-Ning Hsu, Abdelrahman Mohamed, Emmanuel Dupoux
- Abstract要約: 音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
- 参考スコア(独自算出の注目度): 49.48053138928408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose using self-supervised discrete representations for the task of
speech resynthesis. To generate disentangled representation, we separately
extract low-bitrate representations for speech content, prosodic information,
and speaker identity. This allows to synthesize speech in a controllable
manner. We analyze various state-of-the-art, self-supervised representation
learning methods and shed light on the advantages of each method while
considering reconstruction quality and disentanglement properties.
Specifically, we evaluate the F0 reconstruction, speaker identification
performance (for both resynthesis and voice conversion), recordings'
intelligibility, and overall quality using subjective human evaluation. Lastly,
we demonstrate how these representations can be used for an ultra-lightweight
speech codec. Using the obtained representations, we can get to a rate of 365
bits per second while providing better speech quality than the baseline
methods. Audio samples can be found under https://resynthesis-ssl.github.io/.
- Abstract(参考訳): 音声合成作業に自己教師付き離散表現を用いることを提案する。
そこで, 音声コンテンツ, 韻律情報, 話者識別のための低ビット表現を別々に抽出する。
これにより、音声を制御可能な方法で合成することができる。
我々は,様々な最先端,自己指導型表現学習手法を解析し,再構成品質と非絡み合い特性を考慮して,各手法の利点について光を当てた。
具体的には、F0再構成、話者識別性能(再生と音声変換の両方)、録音の可知性、全体的な品質を主観的人間評価を用いて評価する。
最後に、これらの表現が超軽量音声コーデックにどのように使用できるかを示す。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
オーディオサンプルはhttps://re synthesis-ssl.github.io/で確認できる。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - DSVAE: Interpretable Disentangled Representation for Synthetic Speech
Detection [25.451749986565375]
合成音声を検出するための音声信号の解釈可能な表現を生成するために,Dis Spectrogram Variational Autoentangle (DSVAE)を提案する。
実験の結果, 未知音声合成者11名中6名中10名中98%が, 高い精度 (>98%) を示した。
論文 参考訳(メタデータ) (2023-04-06T18:37:26Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。