論文の概要: A small vocabulary database of ultrasound image sequences of vocal tract
dynamics
- arxiv url: http://arxiv.org/abs/2308.13941v1
- Date: Sat, 26 Aug 2023 18:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:06:34.305714
- Title: A small vocabulary database of ultrasound image sequences of vocal tract
dynamics
- Title(参考訳): 声道動態の超音波画像解析のための小語彙データベース
- Authors: Margareth Castillo, Felipe Rubio, Dagoberto Porras, Sonia H.
Contreras-Ortiz, Alexander Sep\'ulveda
- Abstract要約: 本稿では,音声データと調音データを組み合わせた新しいデータベースを提案する。
調音データは声道動態の超音波ビデオに対応し、音声生成過程における舌上部の輪郭の可視化を可能にする。
音響データは、指向性心内膜マイクによって取得された30の短い文から成り立っている。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new database consisting of concurrent articulatory and
acoustic speech data. The articulatory data correspond to ultrasound videos of
the vocal tract dynamics, which allow the visualization of the tongue upper
contour during the speech production process. Acoustic data is composed of 30
short sentences that were acquired by a directional cardioid microphone. This
database includes data from 17 young subjects (8 male and 9 female) from the
Santander region in Colombia, who reported not having any speech pathology.
- Abstract(参考訳): 本稿では,音声データと調音データを組み合わせた新しいデータベースを提案する。
調音データは声道動態の超音波映像に対応しており,音声生成過程における舌上輪郭の可視化が可能である。
音響データは30の短い文からなり、指向性cardioidマイクロホンによって取得される。
このデータベースには、コロンビアのサンタンデール地域の17人の若年者(男性8人、女性9人)のデータが含まれている。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Masked Autoencoders Are Articulatory Learners [0.0]
調音記録は声道に沿って異なる調音器の位置と動きを追跡する。
XRMB調音記録は、マイクロビームによって追跡できる複数の調音器にペレットを配置する。
録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。
本研究では,Musked Autoencoders を用いた深層学習に基づく学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T06:03:47Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Deep Learning-based automated classification of Chinese Speech Sound
Disorders [3.4314628858361496]
本稿では,コンピュータを用いた子どもの発話障害の診断・分類を支援するために,音響データを解析するシステムについて述べる。
この分析は、中国の4つの異なるタイプのミスコンストラクションを特定し、分類することに集中した。
論文 参考訳(メタデータ) (2022-05-24T03:23:22Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image [10.100437437151621]
話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
論文 参考訳(メタデータ) (2021-01-27T08:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。