論文の概要: Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows
- arxiv url: http://arxiv.org/abs/2005.09463v2
- Date: Thu, 1 Oct 2020 03:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:15:47.916193
- Title: Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows
- Title(参考訳): 正規化流を用いた関節音響表現の学習
- Authors: Pramit Saha, Sidney Fels
- Abstract要約: 可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
- 参考スコア(独自算出の注目度): 7.183132975698293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The articulatory geometric configurations of the vocal tract and the acoustic
properties of the resultant speech sound are considered to have a strong causal
relationship. This paper aims at finding a joint latent representation between
the articulatory and acoustic domain for vowel sounds via invertible neural
network models, while simultaneously preserving the respective domain-specific
features. Our model utilizes a convolutional autoencoder architecture and
normalizing flow-based models to allow both forward and inverse mappings in a
semi-supervised manner, between the mid-sagittal vocal tract geometry of a two
degrees-of-freedom articulatory synthesizer with 1D acoustic wave model and the
Mel-spectrogram representation of the synthesized speech sounds. Our approach
achieves satisfactory performance in achieving both articulatory-to-acoustic as
well as acoustic-to-articulatory mapping, thereby demonstrating our success in
achieving a joint encoding of both the domains.
- Abstract(参考訳): 声道の調音幾何学的構成と結果音声の音響特性は強い因果関係を有すると考えられる。
本稿では,可逆ニューラルネットワークモデルによる母音音の調音領域と音響領域の結合的潜在表現の探索を目的とし,各領域固有の特徴を同時に保持する。
本モデルでは,畳み込み型オートエンコーダのアーキテクチャと流れに基づくモデルを正規化することにより,1次元音響モデルを用いた2自由度調音合成器の中指声道形状と合成音声のメル・スペクトログラム表現とを半教師付きで表現できる。
提案手法は, 調音・音響・音響の両面のマッピングを達成し, 両領域の共同符号化の実現に成功していることを示す。
関連論文リスト
- Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Adaptation of Tacotron2-based Text-To-Speech for
Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging [48.7576911714538]
本稿では,タコトロン2テキスト音声合成モデルの伝達学習と適応による調音-音響マッピングの改良について検討する。
我々は,多話者事前学習型Tacotron2 TTSモデルと,事前学習型WaveGlowニューラルボコーダを用いた。
論文 参考訳(メタデータ) (2021-07-26T09:19:20Z) - Learning robust speech representation with an articulatory-regularized
variational autoencoder [13.541055956177937]
顎、舌、唇、椎骨の構成を記述する調音パラメータを声道形状およびスペクトル特徴と関連付けることができる調音モデルを開発する。
この調音制約は,収束までの時間を短縮し,コンバージェンスにおける再構成損失を低減し,モデルトレーニングを改善できることを示す。
論文 参考訳(メタデータ) (2021-04-07T15:47:04Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Articulatory-WaveNet: Autoregressive Model For Acoustic-to-Articulatory
Inversion [6.58411552613476]
Articulatory-WaveNetはアコースティック・トゥ・アコースティック・アコースティック・トゥ・アコースティック・インバージョンのための新しいアプローチである。
The ElectroMagnetic Articulography corpus of Mandarin Accented English。
論文 参考訳(メタデータ) (2020-06-22T20:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。