論文の概要: Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation
- arxiv url: http://arxiv.org/abs/2204.02269v1
- Date: Tue, 5 Apr 2022 15:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:37:25.305642
- Title: Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation
- Title(参考訳): 音声模倣による音響-音声間マッピングの自己教師あり学習
- Authors: Marc-Antoine Georges, Julien Diard, Laurent Girin, Jean-Luc Schwartz,
Thomas Hueber
- Abstract要約: そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 9.416401293559112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a computational model of speech production combining a pre-trained
neural articulatory synthesizer able to reproduce complex speech stimuli from a
limited set of interpretable articulatory parameters, a DNN-based internal
forward model predicting the sensory consequences of articulatory commands, and
an internal inverse model based on a recurrent neural network recovering
articulatory commands from the acoustic speech input. Both forward and inverse
models are jointly trained in a self-supervised way from raw acoustic-only
speech data from different speakers. The imitation simulations are evaluated
objectively and subjectively and display quite encouraging performances.
- Abstract(参考訳): 音声入力から調音コマンドを回復するリカレントニューラルネットワークに基づく内部逆モデルと、限定された解釈可能な調音パラメータのセットから複雑な音声刺激を再現できる事前学習されたニューラルネットワーク合成器と、調音コマンドの知覚結果を予測するdnnベースの内部フォワードモデルとを組み合わせた音声生成の計算モデルを提案する。
前方モデルと逆モデルの両方が、異なる話者からの生の音響のみによる音声データから自己教師ありの方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Mean absorption estimation from room impulse responses using virtually
supervised learning [0.0]
本稿では,室内インパルス応答(RIR)のみから平均吸収係数を推定する新しい手法を紹介し,検討する。
この逆問題は、仮想教師付き学習、すなわち、人工ニューラルネットワークを用いたシミュレーションデータセット上の回帰によって暗黙的に学習される。
論文 参考訳(メタデータ) (2021-09-01T14:06:20Z) - Learning robust speech representation with an articulatory-regularized
variational autoencoder [13.541055956177937]
顎、舌、唇、椎骨の構成を記述する調音パラメータを声道形状およびスペクトル特徴と関連付けることができる調音モデルを開発する。
この調音制約は,収束までの時間を短縮し,コンバージェンスにおける再構成損失を低減し,モデルトレーニングを改善できることを示す。
論文 参考訳(メタデータ) (2021-04-07T15:47:04Z) - Embodied Self-supervised Learning by Coordinated Sampling and Training [14.107020105091662]
本稿では, 逆問題に対して, 対応する物理フォワードプロセスを用いて, 自己教師型アプローチを提案する。
提案手法は、反復的なサンプリングとトレーニングによって推論ネットワークを学習するために、分析バイシンセシス方式で動作する。
音声から調音情報を推測するために,音響-調音インバージョン問題に対処することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-20T14:05:47Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。