論文の概要: Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs
- arxiv url: http://arxiv.org/abs/2106.15684v1
- Date: Tue, 29 Jun 2021 19:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 01:55:15.152112
- Title: Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and
Speech Pause Features Robust to Noisy Inputs
- Title(参考訳): 雑音入力に頑健な音響的・語彙的・不流・音声ポーズを用いたアルツハイマー型認知症の認識
- Authors: Morteza Rohanian, Julian Hough, Matthew Purver
- Abstract要約: 本稿では, 話者がアルツハイマー病を患っているか否かを分類するために, ASR で書き起こされた音声と音響データを同時に消費する2つの多モード融合型深層学習モデルを提案する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
- 参考スコア(独自算出の注目度): 11.34426502082293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present two multimodal fusion-based deep learning models that consume ASR
transcribed speech and acoustic data simultaneously to classify whether a
speaker in a structured diagnostic task has Alzheimer's Disease and to what
degree, evaluating the ADReSSo challenge 2021 data. Our best model, a BiLSTM
with highway layers using words, word probabilities, disfluency features, pause
information, and a variety of acoustic features, achieves an accuracy of 84%
and RSME error prediction of 4.26 on MMSE cognitive scores. While predicting
cognitive decline is more challenging, our models show improvement using the
multimodal approach and word probabilities, disfluency and pause information
over word-only models. We show considerable gains for AD classification using
multimodal fusion and gating, which can effectively deal with noisy inputs from
acoustic features and ASR hypotheses.
- Abstract(参考訳): 本稿では,asr転写音声と音響データを同時に消費する2つのマルチモーダル融合型深層学習モデルを提案し,構造化診断課題における話者がアルツハイマー病を有するか,どの程度の程度であるかを分類し,adresso challenge 2021データを評価する。
我々の最良モデルである、単語、単語確率、拡散特性、ポーズ情報、および様々な音響特徴を用いたハイウェイ層付きBiLSTMは、MMSE認知スコアに対して84%の精度とRSME誤差予測を4.26の精度で達成する。
認知的減少を予測することはより難しいが, マルチモーダルアプローチによる改善, 単語確率, 分散性, ポーズ情報などを示す。
マルチモーダルフュージョンとゲーティングを用いたAD分類では,音響特性やASR仮説からのノイズ入力を効果的に扱うことができる。
関連論文リスト
- Towards Within-Class Variation in Alzheimer's Disease Detection from Spontaneous Speech [60.08015780474457]
アルツハイマー病(AD)の検出は、機械学習の分類モデルを使用する有望な研究領域として浮上している。
我々は、AD検出において、クラス内変異が重要な課題であると考え、ADを持つ個人は認知障害のスペクトルを示す。
本稿では,ソフトターゲット蒸留 (SoTD) とインスタンスレベルの再分散 (InRe) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T02:06:05Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Multi-modal fusion with gating using audio, lexical and disfluency
features for Alzheimer's Dementia recognition from spontaneous speech [11.34426502082293]
本論文は、自発音声(ADReSS)によるアルツハイマー認知症への挑戦である。
本研究の目的は、音声データからアルツハイマー病の重症度の自動予測を支援する方法を開発することである。
論文 参考訳(メタデータ) (2021-06-17T17:20:57Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Comparing Natural Language Processing Techniques for Alzheimer's
Dementia Prediction in Spontaneous Speech [1.2805268849262246]
アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を与える不治の、不安定で進行性の神経変性疾患である。
自発音声タスクによるアルツハイマー認知は、ADの分類と予測のために、音響的に前処理とバランスの取れたデータセットを提供する。
論文 参考訳(メタデータ) (2020-06-12T17:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。