論文の概要: Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data
- arxiv url: http://arxiv.org/abs/2307.02514v1
- Date: Wed, 5 Jul 2023 12:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 16:30:39.067871
- Title: Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data
- Title(参考訳): 患者音声と音声データを用いたアルツハイマー病検出のためのマルチモーダルアプローチの探索
- Authors: Hongmin Cai, Xiaoke Huang, Zhengliang Liu, Wenxiong Liao, Haixing Dai,
Zihao Wu, Dajiang Zhu, Hui Ren, Quanzheng Li, Tianming Liu, and Xiang Li
- Abstract要約: アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
- 参考スコア(独自算出の注目度): 10.782153332144533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alzheimer's disease (AD) is a common form of dementia that severely impacts
patient health. As AD impairs the patient's language understanding and
expression ability, the speech of AD patients can serve as an indicator of this
disease. This study investigates various methods for detecting AD using
patients' speech and transcripts data from the DementiaBank Pitt database. The
proposed approach involves pre-trained language models and Graph Neural Network
(GNN) that constructs a graph from the speech transcript, and extracts features
using GNN for AD detection. Data augmentation techniques, including synonym
replacement, GPT-based augmenter, and so on, were used to address the small
dataset size. Audio data was also introduced, and WavLM model was used to
extract audio features. These features were then fused with text features using
various methods. Finally, a contrastive learning approach was attempted by
converting speech transcripts back to audio and using it for contrastive
learning with the original audio. We conducted intensive experiments and
analysis on the above methods. Our findings shed light on the challenges and
potential solutions in AD detection using speech and audio data.
- Abstract(参考訳): アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
ADは患者の言語理解と表現能力を損なうため、AD患者のスピーチはこの疾患の指標として機能する。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
提案手法は、事前訓練された言語モデルと、音声書き起こしからグラフを構築するグラフニューラルネットワーク(GNN)を含み、AD検出のためにGNNを用いて特徴を抽出する。
同義語置換、GPTベースの拡張器などを含むデータ拡張技術は、小さなデータセットサイズに対処するために用いられた。
音声データも導入され、WavLMモデルは音声特徴抽出に使用された。
これらの機能は様々な方法でテキスト機能と融合した。
最後に、音声の書き起こしを音声に変換し、それを用いて元の音声と対照学習を行うことにより、コントラスト学習アプローチを試みた。
以上の方法で集中的な実験と解析を行った。
音声および音声データを用いたAD検出における課題と潜在的な解決策について検討した。
関連論文リスト
- Swin-BERT: A Feature Fusion System designed for Speech-based Alzheimer's Dementia Detection [4.668008953332776]
認知症自動検出のための音声ベースシステムSwin-BERTを提案する。
音響的部分については,移動窓のマルチヘッドアテンションを用いて音響系を設計する。
言語的部分については、ADの有無によって異なるリズム関連情報を削除し、音声記録を転写文に書き起こしする。
論文 参考訳(メタデータ) (2024-10-09T06:58:20Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Multilingual Alzheimer's Dementia Recognition through Spontaneous
Speech: a Signal Processing Grand Challenge [18.684024762601215]
この信号処理グランドチャレンジ(SPGC)は、社会的・医療的関連性の難しい自動予測問題をターゲットにしている。
チャレンジは、ある言語(英語)における音声に基づいて構築された予測モデルが、他の言語(ギリシャ語)に一般化する程度を評価するように設計されている。
論文 参考訳(メタデータ) (2023-01-13T14:09:13Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Data Augmentation for Dementia Detection in Spoken Language [1.7324358447544175]
最近のディープラーニング技術はより高速な診断を提供し、有望な結果を示している。
それらは大量のラベル付きデータを必要としており、認知症検出のタスクでは簡単には利用できない。
スパースデータ問題に対する効果的な解決策の1つは、データ拡張であるが、正確なメソッドを慎重に選択する必要がある。
論文 参考訳(メタデータ) (2022-06-26T13:40:25Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Multi-modal fusion with gating using audio, lexical and disfluency
features for Alzheimer's Dementia recognition from spontaneous speech [11.34426502082293]
本論文は、自発音声(ADReSS)によるアルツハイマー認知症への挑戦である。
本研究の目的は、音声データからアルツハイマー病の重症度の自動予測を支援する方法を開発することである。
論文 参考訳(メタデータ) (2021-06-17T17:20:57Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。