論文の概要: Swin-BERT: A Feature Fusion System designed for Speech-based Alzheimer's Dementia Detection
- arxiv url: http://arxiv.org/abs/2410.07277v1
- Date: Wed, 9 Oct 2024 06:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:16:57.489318
- Title: Swin-BERT: A Feature Fusion System designed for Speech-based Alzheimer's Dementia Detection
- Title(参考訳): Swin-BERT:音声によるアルツハイマー認知症検出のための特徴融合システム
- Authors: Yilin Pan, Yanpei Shi, Yijia Zhang, Mingyu Lu,
- Abstract要約: 認知症自動検出のための音声ベースシステムSwin-BERTを提案する。
音響的部分については,移動窓のマルチヘッドアテンションを用いて音響系を設計する。
言語的部分については、ADの有無によって異なるリズム関連情報を削除し、音声記録を転写文に書き起こしする。
- 参考スコア(独自算出の注目度): 4.668008953332776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech is usually used for constructing an automatic Alzheimer's dementia (AD) detection system, as the acoustic and linguistic abilities show a decline in people living with AD at the early stages. However, speech includes not only AD-related local and global information but also other information unrelated to cognitive status, such as age and gender. In this paper, we propose a speech-based system named Swin-BERT for automatic dementia detection. For the acoustic part, the shifted windows multi-head attention that proposed to extract local and global information from images, is used for designing our acoustic-based system. To decouple the effect of age and gender on acoustic feature extraction, they are used as an extra input of the designed acoustic system. For the linguistic part, the rhythm-related information, which varies significantly between people living with and without AD, is removed while transcribing the audio recordings into transcripts. To compensate for the removed rhythm-related information, the character-level transcripts are proposed to be used as the extra input of a word-level BERT-style system. Finally, the Swin-BERT combines the acoustic features learned from our proposed acoustic-based system with our linguistic-based system. The experiments are based on the two datasets provided by the international dementia detection challenges: the ADReSS and ADReSSo. The results show that both the proposed acoustic and linguistic systems can be better or comparable with previous research on the two datasets. Superior results are achieved by the proposed Swin-BERT system on the ADReSS and ADReSSo datasets, which are 85.58\% F-score and 87.32\% F-score respectively.
- Abstract(参考訳): 音声は、聴覚と言語能力が早期にADに罹患する人の減少を示すため、通常、自動アルツハイマー認知症(AD)検出システムを構築するために使用される。
しかし、音声はADに関連する地域情報やグローバル情報だけでなく、年齢や性別など認知的地位に関係のない他の情報も含んでいる。
本稿では,認知症自動検出のための音声ベースシステムSwin-BERTを提案する。
画像から局所的・大域的情報を抽出するために提案した移動窓のマルチヘッドアテンションを音響ベースシステムの設計に利用した。
音響特徴抽出における年齢と性別の影響を分離するために、設計された音響システムの付加的な入力として使用される。
言語的部分については、ADの有無によって異なるリズム関連情報を削除し、音声記録を転写文に書き起こしする。
削除したリズム関連情報を補うために,単語レベルのBERTスタイルシステムの余分な入力として,文字レベルの書き起こしを提案する。
最後に、Swin-BERTは、提案した音響ベースシステムから得られた音響特徴と言語ベースシステムを組み合わせる。
実験は、ADReSSとADReSSoという、国際的な認知症検出課題によって提供される2つのデータセットに基づいている。
その結果、提案した音響システムと言語システムの両方が、以前の2つのデータセットによる研究より優れているか、あるいは同等であることがわかった。
上述の結果はADReSSとADReSSoデータセット上のSwin-BERTシステムによって達成され、それぞれ85.58\%Fスコアと87.32\%Fスコアである。
関連論文リスト
- The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions [11.00082412847855]
MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムにより,AD 患者を上向きの性能制御から識別できることが示されている。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
論文 参考訳(メタデータ) (2024-09-11T20:50:45Z) - Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data [10.782153332144533]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
論文 参考訳(メタデータ) (2023-07-05T12:40:11Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Cross-lingual Alzheimer's Disease detection based on paralinguistic and
pre-trained features [6.928826160866143]
本稿ではICASSP-SPGC-2023 ADReSS-M Challenge Taskについて述べる。
この課題は、アルツハイマー病の予測のために、どの音響特徴を一般化し、言語間で伝達できるかを検討することである。
我々は、openSmileツールキットとXLSR-53を用いた音響特性を用いてパラ言語的特徴を抽出する。
本手法は分類タスクの69.6%の精度と回帰タスクの4.788の根平均二乗誤差(RMSE)を実現する。
論文 参考訳(メタデータ) (2023-03-14T06:34:18Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。