論文の概要: Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images
- arxiv url: http://arxiv.org/abs/2006.16367v1
- Date: Mon, 29 Jun 2020 20:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:31:29.031272
- Title: Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images
- Title(参考訳): Ultra2Speech - 超音波舌画像からのフォルマント周波数推定と追跡のためのディープラーニングフレームワーク
- Authors: Pramit Saha, Yadong Liu, Bryan Gick, Sidney Fels
- Abstract要約: 本研究は,超音波(US)舌画像に基づく動脈-音響マッピング問題に対処する。
U2F(Ultrasound2Formant, Ultrasound2Formant, Ultrasound2Formant, U2F)Net)と呼ばれる、被験者のあごの下に置かれた米国の舌画像のマッピングに、新しいディープラーニングアーキテクチャを使用します。
- 参考スコア(独自算出の注目度): 5.606679908174784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thousands of individuals need surgical removal of their larynx due to
critical diseases every year and therefore, require an alternative form of
communication to articulate speech sounds after the loss of their voice box.
This work addresses the articulatory-to-acoustic mapping problem based on
ultrasound (US) tongue images for the development of a silent-speech interface
(SSI) that can provide them with an assistance in their daily interactions. Our
approach targets automatically extracting tongue movement information by
selecting an optimal feature set from US images and mapping these features to
the acoustic space. We use a novel deep learning architecture to map US tongue
images from the US probe placed beneath a subject's chin to formants that we
call, Ultrasound2Formant (U2F) Net. It uses hybrid spatio-temporal 3D
convolutions followed by feature shuffling, for the estimation and tracking of
vowel formants from US images. The formant values are then utilized to
synthesize continuous time-varying vowel trajectories, via Klatt Synthesizer.
Our best model achieves R-squared (R^2) measure of 99.96% for the regression
task. Our network lays the foundation for an SSI as it successfully tracks the
tongue contour automatically as an internal representation without any explicit
annotation.
- Abstract(参考訳): 何千人もの個人が、毎年重篤な疾患のために喉頭を外科的に切除する必要があるため、音声ボックスが失われた後、音声を明瞭にするための代替的なコミュニケーションが必要である。
本研究は,音声(US)舌画像に基づく音声と音響のマッピング問題に対処し,日常的な対話を支援するサイレント音声インタフェース(SSI)を開発した。
提案手法は,us画像から最適な特徴集合を選択し,これらの特徴を音響空間にマッピングすることで,舌運動情報を自動的に抽出する。
新たな深層学習アーキテクチャを用いて,超音波2formant(u2f)ネットと呼ばれる,被検者の顎下に設置した米国探査機の舌イメージをフォルマントにマッピングした。
米国の画像から母音フォルマントを推定・追跡するために、ハイブリッド時空間3次元畳み込みに続いて特徴シャッフルを行う。
次に、ホルマント値をklattシンセサイザーを介して連続時間変化母音軌跡を合成する。
最善のモデルは回帰タスクで r-二乗 (r^2) 測度 99.96% を達成する。
私たちのネットワークは、明示的なアノテーションなしで舌の輪郭を自動的に内部表現として追跡するssiの基礎を築いている。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-07-04T12:06:07Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Adaptation of Tacotron2-based Text-To-Speech for
Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging [48.7576911714538]
本稿では,タコトロン2テキスト音声合成モデルの伝達学習と適応による調音-音響マッピングの改良について検討する。
我々は,多話者事前学習型Tacotron2 TTSモデルと,事前学習型WaveGlowニューラルボコーダを用いた。
論文 参考訳(メタデータ) (2021-07-26T09:19:20Z) - Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism [1.52292571922932]
唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-20T10:51:23Z) - Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image [10.100437437151621]
話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
論文 参考訳(メタデータ) (2021-01-27T08:00:47Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。