論文の概要: Alzheimer Disease Classification through ASR-based Transcriptions:
Exploring the Impact of Punctuation and Pauses
- arxiv url: http://arxiv.org/abs/2306.03443v1
- Date: Tue, 6 Jun 2023 06:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:52:51.461509
- Title: Alzheimer Disease Classification through ASR-based Transcriptions:
Exploring the Impact of Punctuation and Pauses
- Title(参考訳): ASRに基づく転写によるアルツハイマー病の分類 : 触覚とポーズの影響を探る
- Authors: Luc\'ia G\'omez-Zaragoz\'a, Simone Wills, Cristian Tejedor-Garcia,
Javier Mar\'in-Morales, Mariano Alca\~niz, Helmer Strik
- Abstract要約: アルツハイマー病(英語: Alzheimer's Disease、AD)は、世界有数の神経変性疾患である。
最近のADReSSチャレンジはAD分類のためのデータセットを提供した。
我々は、新しい最先端自動音声認識(ASR)モデルWhisperを用いて、その書き起こしを得た。
- 参考スコア(独自算出の注目度): 6.053166856632848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alzheimer's Disease (AD) is the world's leading neurodegenerative disease,
which often results in communication difficulties. Analysing speech can serve
as a diagnostic tool for identifying the condition. The recent ADReSS challenge
provided a dataset for AD classification and highlighted the utility of manual
transcriptions. In this study, we used the new state-of-the-art Automatic
Speech Recognition (ASR) model Whisper to obtain the transcriptions, which also
include automatic punctuation. The classification models achieved test accuracy
scores of 0.854 and 0.833 combining the pretrained FastText word embeddings and
recurrent neural networks on manual and ASR transcripts respectively.
Additionally, we explored the influence of including pause information and
punctuation in the transcriptions. We found that punctuation only yielded minor
improvements in some cases, whereas pause encoding aided AD classification for
both manual and ASR transcriptions across all approaches investigated.
- Abstract(参考訳): アルツハイマー病(英語: Alzheimer's Disease、AD)は、世界でも有数の神経変性疾患である。
音声の分析は、その状態を特定する診断ツールとして機能する。
最近のADReSSチャレンジはAD分類のためのデータセットを提供し、手書き文字の実用性を強調した。
本研究では,新しい最先端音声認識モデルであるasr(state-of-the-art automatic speech recognition)を用いて,自動句読点を含む書き起こしを得る。
分類モデルは,手動とASRの書き起こしに対して,事前学習したFastTextワード埋め込みと繰り返しニューラルネットワークを組み合わせた0.854と0.833の精度スコアを得た。
また,ポーズ情報や句読点の影響についても検討した。
その結果, 句読解は一部の症例でわずかに改善しただけであり, ポーズエンコーディングは手動およびASRの転写におけるAD分類を助けた。
関連論文リスト
- Extracting Biomedical Entities from Noisy Audio Transcripts [5.180763052209895]
本稿では,バイオメディカル領域におけるASR-NLPギャップを埋めるための新しいデータセットであるBioASR-NERを紹介する。
ゼロショット法と少数ショット法の両方について検討し, GPT4を用いた書き起こしクリーン化手法を提案する。
本研究は、さらに誤り解析、転写ソフトウェアにおけるエラーの種類、GPT4による修正、そしてGPT4が直面する課題について考察する。
論文 参考訳(メタデータ) (2024-03-26T03:58:52Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。