論文の概要: Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI
- arxiv url: http://arxiv.org/abs/2106.08706v1
- Date: Wed, 16 Jun 2021 11:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 02:47:44.573745
- Title: Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI
- Title(参考訳): リアルタイムMRIにおける声道形状ダイナミクスからの無声音声と感情認識
- Authors: Laxmi Pandey, Ahmed Sabbir Arif
- Abstract要約: 本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
- 参考スコア(独自算出の注目度): 9.614694312155798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech sounds of spoken language are obtained by varying configuration of the
articulators surrounding the vocal tract. They contain abundant information
that can be utilized to better understand the underlying mechanism of human
speech production. We propose a novel deep neural network-based learning
framework that understands acoustic information in the variable-length sequence
of vocal tract shaping during speech production, captured by real-time magnetic
resonance imaging (rtMRI), and translate it into text. The proposed framework
comprises of spatiotemporal convolutions, a recurrent network, and the
connectionist temporal classification loss, trained entirely end-to-end. On the
USC-TIMIT corpus, the model achieved a 40.6% PER at sentence-level, much better
compared to the existing models. To the best of our knowledge, this is the
first study that demonstrates the recognition of entire spoken sentence based
on an individual's articulatory motions captured by rtMRI video. We also
performed an analysis of variations in the geometry of articulation in each
sub-regions of the vocal tract (i.e., pharyngeal, velar and dorsal, hard
palate, labial constriction region) with respect to different emotions and
genders. Results suggest that each sub-regions distortion is affected by both
emotion and gender.
- Abstract(参考訳): 音声言語の音声は、声道を取り囲む調音器の様々な構成により得られる。
それらは、人間の音声生成の基盤となるメカニズムをよりよく理解するために利用できる豊富な情報を含んでいる。
本稿では,音声生成中の声道形状の可変長列の音響情報を理解し,リアルタイム磁気共鳴画像(rtmri)で取得し,テキストに変換する,深層ニューラルネットワークに基づく学習フレームワークを提案する。
提案手法は,時空間的畳み込み,再帰的ネットワーク,接続主義的時間的分類損失からなる。
USC-TIMITコーパスでは、既存のモデルに比べて40.6%のPERを達成した。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の調音運動に基づいて、音声文全体の認識を示す最初の研究である。
また, 声道下部領域(咽頭, 歯槽, 背側, 硬口蓋, 硬口蓋, 口唇結節領域)において, 感情や性別の相違について, 調音の幾何学的変化の分析を行った。
その結果、各サブリージョンの歪みは感情と性別の両方に影響されていることが示唆された。
関連論文リスト
- MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI [23.54023878857057]
rtMRIからのテキスト予測にマルチモーダル自己教師型AV-HuBERTモデルを適用する新しい手法を提案する。
予測されたテキストと期間は音声デコーダによって使用され、任意の新しい音声で一致した音声を合成する。
提案手法はUSC-TIMIT MRIコーパス上で15.18%のワード誤り率(WER)を達成し,現状よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-25T08:49:43Z) - Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Information-Restricted Neural Language Models Reveal Different Brain
Regions' Sensitivity to Semantics, Syntax and Context [87.31930367845125]
テキストコーパスを用いて語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。
そして、これらの情報制限されたモデルが、自然主義的テキストを聴く人間のfMRI信号の時間軸を予測することができるかを評価した。
分析の結果、言語に関わるほとんどの脳領域は、構文変数と意味変数の両方に敏感であるが、これらの影響の相対的な大きさは、これらの領域で大きく異なることがわかった。
論文 参考訳(メタデータ) (2023-02-28T08:16:18Z) - Articulation GAN: Unsupervised modeling of articulatory learning [6.118463549086599]
本稿では,Articulatory Generatorをジェネレーティブアドリアネットワークパラダイムに導入する。
別個の事前学習された物理モデルは、生成されたEMA表現を音声波形に変換する。
生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学習していることを示唆している。
論文 参考訳(メタデータ) (2022-10-27T05:07:04Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。