論文の概要: Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2012.15184v1
- Date: Wed, 30 Dec 2020 15:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 05:53:23.602961
- Title: Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis
- Title(参考訳): 非並列調音音声合成のための多視点時間アライメント
- Authors: Jose A. Gonzalez-Lopez and Miriam Gonzalez-Atienza and Alejandro
Gomez-Alanis and Jose L. Perez-Cordoba and Phil D. Green
- Abstract要約: A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
- 参考スコア(独自算出の注目度): 59.623780036359655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Articulatory-to-acoustic (A2A) synthesis refers to the generation of audible
speech from captured movement of the speech articulators. This technique has
numerous applications, such as restoring oral communication to people who
cannot longer speak due to illness or injury. Most successful techniques so far
adopt a supervised learning framework, in which time-synchronous
articulatory-and-speech recordings are used to train a supervised machine
learning algorithm that can be used later to map articulator movements to
speech. This, however, prevents the application of A2A techniques in cases
where parallel data is unavailable, e.g., a person has already lost her/his
voice and only articulatory data can be captured. In this work, we propose a
solution to this problem based on the theory of multi-view learning. The
proposed algorithm attempts to find an optimal temporal alignment between pairs
of non-aligned articulatory-and-acoustic sequences with the same phonetic
content by projecting them into a common latent space where both views are
maximally correlated and then applying dynamic time warping. Several variants
of this idea are discussed and explored. We show that the quality of speech
generated in the non-aligned scenario is comparable to that obtained in the
parallel scenario.
- Abstract(参考訳): A2A(Articulatory-to-acoustic)合成(A2A)は、調音器の捕えられた動きから可聴音声を生成することを指す。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
最も成功した技術は教師付き学習フレームワークを採用しており、時間同期の調音音声記録を用いて教師付き機械学習アルゴリズムを訓練し、後から音声への調音運動のマッピングに使用できる。
しかし、これは並列データが利用できない場合、例えば、既に声を失い、調音データのみをキャプチャできるような場合、A2A技術の適用を妨げている。
本研究では,多視点学習理論に基づくこの問題に対する解法を提案する。
提案アルゴリズムは, 両ビューが最大相関する共通潜在空間に投影し, 動的時間ワープを適用することにより, 同一の音声内容を含む一対の非整合調音列間の最適時間アライメントを求める。
この概念のいくつかの変種が議論され、検討されている。
非一致シナリオで生成された音声の質は、並列シナリオで得られたものと同程度であることを示す。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - MultiQT: Multimodal Learning for Real-Time Question Tracking in Speech [4.384576489684272]
本稿では,音声中のリアルタイムシーケンスラベリングに対する新しいアプローチを提案する。
本モデルでは、音声とそれ自身のテキスト表現を2つの異なるモダリティまたはビューとして扱う。
テキストや音声のみと比較して,2つのモードから共同学習を行うことで大きな効果が得られた。
論文 参考訳(メタデータ) (2020-05-02T12:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。