Fugu-MT 論文翻訳(概要): The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification

論文の概要: The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification

arxiv url: http://arxiv.org/abs/2211.07430v1
Date: Fri, 11 Nov 2022 17:06:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 15:51:50.559823
Title: The Far Side of Failure: Investigating the Impact of Speech Recognition Errors on Subsequent Dementia Classification
Title（参考訳）: 失敗の裏側--認知症後分類における音声認識誤差の影響の検討
Authors: Changye Li, Trevor Cohen, and Serguei Pakhomov
Abstract要約: 自然発話で検出される言語異常は、認知障害などの認知障害のスクリーニングなど、様々な臨床応用の可能性を示唆している。自己教師付き学習(SSL)自動音声認識(ASR)モデルにおいて,臨床環境から抽出した難解な音声サンプルでは,有意な性能が得られない。我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムは、動詞の文字起こしに基づく分類よりも、より下流の分類精度の高い転写文を生成できるということである。
参考スコア（独自算出の注目度）: 8.032686410648274
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Linguistic anomalies detectable in spontaneous speech have shown promise for various clinical applications including screening for dementia and other forms of cognitive impairment. The feasibility of deploying automated tools that can classify language samples obtained from speech in large-scale clinical settings depends on the ability to capture and automatically transcribe the speech for subsequent analysis. However, the impressive performance of self-supervised learning (SSL) automatic speech recognition (ASR) models with curated speech data is not apparent with challenging speech samples from clinical settings. One of the key questions for successfully applying ASR models for clinical applications is whether imperfect transcripts they generate provide sufficient information for downstream tasks to operate at an acceptable level of accuracy. In this study, we examine the relationship between the errors produced by several deep learning ASR systems and their impact on the downstream task of dementia classification. One of our key findings is that, paradoxically, ASR systems with relatively high error rates can produce transcripts that result in better downstream classification accuracy than classification based on verbatim transcripts.
Abstract（参考訳）: 自発的発話で検出可能な言語異常は、認知症などの認知障害のスクリーニングを含む様々な臨床応用に有望である。大規模臨床環境で音声から得られた言語サンプルを分類できる自動ツールの展開の可能性は、その後の分析のために音声をキャプチャして自動転写する能力に依存する。しかし,臨床データを用いた自己教師あり学習(SSL)自動音声認識(ASR)モデルの性能は,臨床環境からの難解な音声サンプルでは明らかではない。臨床応用にASRモデルを適用する上で重要な課題の1つは、それらが生成する不完全な転写産物が下流のタスクに十分な情報を提供し、許容される精度で操作できるかどうかである。本研究では,複数の深層学習ASRシステムによる誤りと認知症分類の下流課題への影響について検討した。我々の重要な発見の1つは、パラドックス的に、比較的高いエラー率を持つASRシステムでは、動詞の文字起こしに基づく分類よりも、下流の分類精度が向上する。

関連論文リスト

Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。 Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文参考訳（メタデータ） (2025-09-23T13:44:58Z)
Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文参考訳（メタデータ） (2024-12-09T09:32:20Z)
Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文参考訳（メタデータ） (2024-09-16T20:18:20Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。 ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文参考訳（メタデータ） (2024-01-10T21:38:03Z)
Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文参考訳（メタデータ） (2023-11-01T21:36:39Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。 Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文参考訳（メタデータ） (2023-08-02T15:53:59Z)
Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-14T16:03:28Z)
Exploiting prompt learning with pre-trained language models for Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文参考訳（メタデータ） (2022-10-29T09:18:41Z)
Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文参考訳（メタデータ） (2021-09-20T10:41:39Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)
End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文参考訳（メタデータ） (2020-09-22T03:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。