論文の概要: Seq2seq for Automatic Paraphasia Detection in Aphasic Speech
- arxiv url: http://arxiv.org/abs/2312.10518v1
- Date: Sat, 16 Dec 2023 18:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:05:46.142729
- Title: Seq2seq for Automatic Paraphasia Detection in Aphasic Speech
- Title(参考訳): seq2seqによる失語症自動失語検出
- Authors: Matthew Perez, Duc Le, Amrit Romana, Elise Jones, Keli Licata, Emily
Mower Provost
- Abstract要約: 失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
- 参考スコア(独自算出の注目度): 14.686874756530322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paraphasias are speech errors that are often characteristic of aphasia and
they represent an important signal in assessing disease severity and subtype.
Traditionally, clinicians manually identify paraphasias by transcribing and
analyzing speech-language samples, which can be a time-consuming and burdensome
process. Identifying paraphasias automatically can greatly help clinicians with
the transcription process and ultimately facilitate more efficient and
consistent aphasia assessment. Previous research has demonstrated the
feasibility of automatic paraphasia detection by training an automatic speech
recognition (ASR) model to extract transcripts and then training a separate
paraphasia detection model on a set of hand-engineered features. In this paper,
we propose a novel, sequence-to-sequence (seq2seq) model that is trained
end-to-end (E2E) to perform both ASR and paraphasia detection tasks. We show
that the proposed model outperforms the previous state-of-the-art approach for
both word-level and utterance-level paraphasia detection tasks and provide
additional follow-up evaluations to further understand the proposed model
behavior.
- Abstract(参考訳): 失語症は、しばしば失語に特徴的な言語誤りであり、疾患の重症度と亜型を評価する上で重要なシグナルである。
伝統的に、臨床医は言語サンプルの書き起こしと分析によってパラファシアを手動で識別する。
パラファシスを自動的に同定することは、臨床医の転写過程を大いに助け、最終的にはより効率的で一貫した失語評価を促進する。
従来の研究では、自動音声認識(ASR)モデルを訓練し、手書き文字を抽出し、手書き特徴セットに基づいて個別の失語検出モデルを訓練することで、自動失語検出の実現可能性を示した。
本稿では,asr と paraphasia 検出タスクの両方を実行するために,エンドツーエンド (e2e) を訓練した新しいシーケンシャル・ツー・シークエンス (seq2seq) モデルを提案する。
提案モデルは,単語レベルと発話レベルの両方のパラファジー検出タスクにおいて,先行する最先端のアプローチを上回っており,提案モデルの振る舞いをさらに理解するための追加のフォローアップ評価を提供する。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models [10.131053400122308]
失語症(英: Aphasia)は、失語症として知られる言語障害である。
本稿では,GPT(Generative Pretrained Transformer)を用いて,転写産物から失語症を同定する手法を提案する。
単一シーケンスモデルはマルチクラスパラパシア検出においてGPTベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2024-07-16T03:24:51Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Meta Auxiliary Learning for Facial Action Unit Detection [84.22521265124806]
マルチタスク方式でAU検出と表情認識を学習することを検討する。
マルチタスクシナリオにおける負の転送のため、AU検出タスクの性能を常に向上することはできない。
トレーニングFEサンプルの適応重みをメタラーニング方式で学習し,高相関なFEサンプルを自動的に選択するメタラーニング法(MAL)を提案する。
論文 参考訳(メタデータ) (2021-05-14T02:28:40Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。