論文の概要: An Audio-textual Diffusion Model For Converting Speech Signals Into
Ultrasound Tongue Imaging Data
- arxiv url: http://arxiv.org/abs/2403.05820v1
- Date: Tue, 12 Mar 2024 11:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:13:32.141321
- Title: An Audio-textual Diffusion Model For Converting Speech Signals Into
Ultrasound Tongue Imaging Data
- Title(参考訳): 音声信号を超音波舌画像データに変換する音声テキスト拡散モデル
- Authors: Yudong Yang, Rongfeng Su, Xiaokang Liu, Nan Yan, and Lan Wang
- Abstract要約: 音響-調音インバージョン(AAI)は、超音波舌画像(UTI)データなどの音声を調音運動に変換することである。
本稿では,UTIデータ生成タスクのための音声-テキスト拡散モデルを提案する。
実験結果から,提案した拡散モデルにより,舌の輪郭が明瞭な高品質なUTIデータを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 15.171700256244684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic-to-articulatory inversion (AAI) is to convert audio into articulator
movements, such as ultrasound tongue imaging (UTI) data. An issue of existing
AAI methods is only using the personalized acoustic information to derive the
general patterns of tongue motions, and thus the quality of generated UTI data
is limited. To address this issue, this paper proposes an audio-textual
diffusion model for the UTI data generation task. In this model, the inherent
acoustic characteristics of individuals related to the tongue motion details
are encoded by using wav2vec 2.0, while the ASR transcriptions related to the
universality of tongue motions are encoded by using BERT. UTI data are then
generated by using a diffusion module. Experimental results showed that the
proposed diffusion model could generate high-quality UTI data with clear tongue
contour that is crucial for the linguistic analysis and clinical assessment.
The project can be found on the
website\footnote{https://yangyudong2020.github.io/wav2uti/
- Abstract(参考訳): aai(a acoustic-to-articulatory inversion)は、超音波舌画像(uti)データなどの音声を調音運動に変換する。
既存のAAI手法の問題点は、パーソナライズされた音響情報のみを用いて舌の動きの一般的なパターンを導出することであり、それによって生成されたUTIデータの質は制限される。
そこで本研究では, utiデータ生成タスクのための音声・テキスト拡散モデルを提案する。
本モデルでは,舌運動の詳細に関連する個体の固有音響特性をwav2vec 2.0を用いて符号化し,舌運動の普遍性に関連するASR転写をBERTを用いて符号化する。
UTIデータは拡散モジュールを用いて生成される。
実験の結果, 提案する拡散モデルは, 言語解析および臨床評価に不可欠な明瞭な舌輪郭を持つ高品質なuciデータを生成することができた。
このプロジェクトは、webサイト\footnote{https://yangyudong2020.github.io/wav2uti/で見ることができる。
関連論文リスト
- On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Adaptation of Tacotron2-based Text-To-Speech for
Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging [48.7576911714538]
本稿では,タコトロン2テキスト音声合成モデルの伝達学習と適応による調音-音響マッピングの改良について検討する。
我々は,多話者事前学習型Tacotron2 TTSモデルと,事前学習型WaveGlowニューラルボコーダを用いた。
論文 参考訳(メタデータ) (2021-07-26T09:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。