論文の概要: Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice
Conversion
- arxiv url: http://arxiv.org/abs/2109.03551v1
- Date: Wed, 8 Sep 2021 11:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:57:30.200665
- Title: Time Alignment using Lip Images for Frame-based Electrolaryngeal Voice
Conversion
- Title(参考訳): リップ画像を用いたラリンジアル音声変換のための時間アライメント
- Authors: Yi-Syuan Liou, Wen-Chin Huang, Ming-Chi Yen, Shu-Wei Tsai, Yu-Huai
Peng, Tomoki Toda, Yu Tsao, Hsin-Min Wang
- Abstract要約: 音声変換 (VC) は, 人工声の質を向上させるための有効な手法である。
フレームベースのVC手法では、モデルトレーニングの前に時間アライメントを行う必要がある。
本研究は,Lryngectomeeの唇運動が健常者に比べて正常であると仮定し,時間的アライメントにリップイメージを用いることを提案する。
- 参考スコア(独自算出の注目度): 41.72402428912597
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Voice conversion (VC) is an effective approach to electrolaryngeal (EL)
speech enhancement, a task that aims to improve the quality of the artificial
voice from an electrolarynx device. In frame-based VC methods, time alignment
needs to be performed prior to model training, and the dynamic time warping
(DTW) algorithm is widely adopted to compute the best time alignment between
each utterance pair. The validity is based on the assumption that the same
phonemes of the speakers have similar features and can be mapped by measuring a
pre-defined distance between speech frames of the source and the target.
However, the special characteristics of the EL speech can break the assumption,
resulting in a sub-optimal DTW alignment. In this work, we propose to use lip
images for time alignment, as we assume that the lip movements of laryngectomee
remain normal compared to healthy people. We investigate two naive lip
representations and distance metrics, and experimental results demonstrate that
the proposed method can significantly outperform the audio-only alignment in
terms of objective and subjective evaluations.
- Abstract(参考訳): 音声変換(vc)は、電気的喉頭装置から人工音声の品質を向上させることを目的とした、電気的喉頭(el)音声強調のための効果的なアプローチである。
フレームベースのVC手法では、モデルトレーニングの前に時間アライメントを行う必要があり、各発話ペア間の最適な時間アライメントを計算するために動的時間アライメント(DTW)アルゴリズムが広く採用されている。
この妥当性は、話者の同じ音素が類似した特徴を持ち、ソースとターゲットの音声フレーム間の予め定義された距離を計測することでマッピングできるという仮定に基づいている。
しかし、el音声の特殊特性は仮定を破ることができ、結果として副最適dtwアライメントとなる。
本研究は,Lryngectomeeの唇運動が健常者に比べて正常であると仮定し,時間的アライメントにリップイメージを使用することを提案する。
本研究では,2つのナイーブ唇表現と距離測定値について検討し,提案手法が主観的および主観的評価において音声のみのアライメントを大幅に上回ることを示す。
関連論文リスト
- DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization [12.310318928818546]
そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。