論文の概要: The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification
- arxiv url: http://arxiv.org/abs/2211.07430v1
- Date: Fri, 11 Nov 2022 17:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:51:50.559823
- Title: The Far Side of Failure: Investigating the Impact of Speech Recognition
Errors on Subsequent Dementia Classification
- Title(参考訳): 失敗の裏側--認知症後分類における音声認識誤差の影響の検討
- Authors: Changye Li, Trevor Cohen, and Serguei Pakhomov
- Abstract要約: 自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。
自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
- 参考スコア(独自算出の注目度): 8.032686410648274
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Linguistic anomalies detectable in spontaneous speech have shown promise for
various clinical applications including screening for dementia and other forms
of cognitive impairment. The feasibility of deploying automated tools that can
classify language samples obtained from speech in large-scale clinical settings
depends on the ability to capture and automatically transcribe the speech for
subsequent analysis. However, the impressive performance of self-supervised
learning (SSL) automatic speech recognition (ASR) models with curated speech
data is not apparent with challenging speech samples from clinical settings.
One of the key questions for successfully applying ASR models for clinical
applications is whether imperfect transcripts they generate provide sufficient
information for downstream tasks to operate at an acceptable level of accuracy.
In this study, we examine the relationship between the errors produced by
several deep learning ASR systems and their impact on the downstream task of
dementia classification. One of our key findings is that, paradoxically, ASR
systems with relatively high error rates can produce transcripts that result in
better downstream classification accuracy than classification based on verbatim
transcripts.
- Abstract(参考訳): 自発的発話で検出可能な言語異常は、認知症などの認知障害のスクリーニングを含む様々な臨床応用に有望である。
大規模臨床環境で音声から得られた言語サンプルを分類できる自動ツールの展開の可能性は、その後の分析のために音声をキャプチャして自動転写する能力に依存する。
しかし,臨床データを用いた自己教師あり学習(SSL)自動音声認識(ASR)モデルの性能は,臨床環境からの難解な音声サンプルでは明らかではない。
臨床応用にASRモデルを適用する上で重要な課題の1つは、それらが生成する不完全な転写産物が下流のタスクに十分な情報を提供し、許容される精度で操作できるかどうかである。
本研究では,複数の深層学習ASRシステムによる誤りと認知症分類の下流課題への影響について検討した。
我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムでは、動詞の文字起こしに基づく分類よりも、下流の分類精度が向上する。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Careful Whisper -- leveraging advances in automatic speech recognition
for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。
Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。
そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文 参考訳(メタデータ) (2023-08-02T15:53:59Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。