論文の概要: Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI
- arxiv url: http://arxiv.org/abs/2402.06984v1
- Date: Sat, 10 Feb 2024 16:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:06:14.697316
- Title: Speech motion anomaly detection via cross-modal translation of 4D motion
fields from tagged MRI
- Title(参考訳): タグ付きMRIによる4次元運動場のクロスモーダル翻訳による音声動作異常検出
- Authors: Xiaofeng Liu, Fangxu Xing, Jiachen Zhuo, Maureen Stone, Jerry L.
Prince, Georges El Fakhri, Jonghye Woo
- Abstract要約: 本研究は, 音声の動作異常を検出するための枠組みを, 対応する音声と組み合わせて開発することを目的とする。
これは、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
一級のSVMは、健康な個人の分光図と患者の分光図を区別するために使用される。
- 参考スコア(独自算出の注目度): 12.515470808059666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the relationship between tongue motion patterns during speech
and their resulting speech acoustic outcomes -- i.e., articulatory-acoustic
relation -- is of great importance in assessing speech quality and developing
innovative treatment and rehabilitative strategies. This is especially
important when evaluating and detecting abnormal articulatory features in
patients with speech-related disorders. In this work, we aim to develop a
framework for detecting speech motion anomalies in conjunction with their
corresponding speech acoustics. This is achieved through the use of a deep
cross-modal translator trained on data from healthy individuals only, which
bridges the gap between 4D motion fields obtained from tagged MRI and 2D
spectrograms derived from speech acoustic data. The trained translator is used
as an anomaly detector, by measuring the spectrogram reconstruction quality on
healthy individuals or patients. In particular, the cross-modal translator is
likely to yield limited generalization capabilities on patient data, which
includes unseen out-of-distribution patterns and demonstrates subpar
performance, when compared with healthy individuals.~A one-class SVM is then
used to distinguish the spectrograms of healthy individuals from those of
patients. To validate our framework, we collected a total of 39 paired tagged
MRI and speech waveforms, consisting of data from 36 healthy individuals and 3
tongue cancer patients. We used both 3D convolutional and transformer-based
deep translation models, training them on the healthy training set and then
applying them to both the healthy and patient testing sets. Our framework
demonstrates a capability to detect abnormal patient data, thereby illustrating
its potential in enhancing the understanding of the articulatory-acoustic
relation for both healthy individuals and patients.
- Abstract(参考訳): 発話中の舌の動きパターンとその発声音声の音響的結果(すなわち調音-音響的関係)の関係を理解することは、音声品質の評価と革新的な治療とリハビリテーション戦略の開発において非常に重要である。
音声関連疾患における異常な関節機能の評価と検出には特に重要である。
そこで本研究では,対応する音声音響と連動して,音声の動作異常を検出する枠組みを開発することを目的とする。
これは、音声音響データから得られた4次元の運動場と2次元のスペクトルとのギャップを埋める、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。
訓練された翻訳者は、健常者または患者に対するスペクトログラムの再構成品質を測定することにより、異常検出器として使用される。
特に、クロスモーダルトランスレーターは、患者データに限定された一般化能力をもたらす可能性が高い。
次に、健康な人のスペクトルを患者と区別するために、一級SVMを使用します。
その結果, 健常者36名, 舌癌3名を対象に, 39種類のタグ付きmriおよび音声波形を収集した。
3D畳み込みモデルとトランスフォーマーベースの深層翻訳モデルを用いて、健康的なトレーニングセットでトレーニングし、健康なテストセットと患者のテストセットの両方に適用しました。
本枠組みは, 健常者および健常者双方の調音・音響的関係の理解を深める上で, 異常な患者データを検出する能力を示すものである。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - The effect of speech pathology on automatic speaker verification -- a
large-scale study [6.468412158245622]
病的スピーチは 健康なスピーチに比べて プライバシー侵害のリスクが高まっています
ディスフォニアの成人は再識別のリスクが高まる一方、ディスフォニアのような症状は健康な話者に匹敵する結果をもたらす。
病理型間でデータをマージすると、EERは著しく低下し、自動話者検証における病理多様性の潜在的利点が示唆された。
論文 参考訳(メタデータ) (2022-04-13T15:17:00Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。