論文の概要: The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions
- arxiv url: http://arxiv.org/abs/2409.12170v1
- Date: Wed, 11 Sep 2024 20:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:12:27.963287
- Title: The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions
- Title(参考訳): 不均一な記録条件を有するアルツハイマー音声データセットにおける音響システムの信頼性の検証
- Authors: Lara Gauder, Pablo Riera, Andrea Slachevsky, Gonzalo Forno, Adolfo M. Garcia, Luciana Ferrer,
- Abstract要約: MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムにより,AD 患者を上向きの性能制御から識別できることが示されている。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
- 参考スコア(独自算出の注目度): 11.00082412847855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated speech analysis is a thriving approach to detect early markers of Alzheimer's disease (AD). Yet, recording conditions in most AD datasets are heterogeneous, with patients and controls often evaluated in different acoustic settings. While this is not a problem for analyses based on speech transcription or features obtained from manual alignment, it does cast serious doubts on the validity of acoustic features, which are strongly influenced by acquisition conditions. We examined this issue in the ADreSSo dataset, derived from the widely used Pitt corpus. We show that systems based on two acoustic features, MFCCs and Wav2vec 2.0 embeddings, can discriminate AD patients from controls with above-chance performance when using only the non-speech part of the audio signals. We replicated this finding in a separate dataset of Spanish speakers. Thus, in these datasets, the class can be partly predicted by recording conditions. Our results are a warning against the use of acoustic systems for identifying patients based on non-standardized recordings. We propose that acoustically heterogeneous datasets for dementia studies should be either (a) analyzed using only transcripts or other features derived from manual annotations, or (b) replaced by datasets collected with strictly controlled acoustic conditions.
- Abstract(参考訳): 自動音声分析は、アルツハイマー病(AD)の早期マーカーを検出するための活発なアプローチである。
しかし、ほとんどのADデータセットにおける記録条件は異種であり、患者やコントロールは異なる音環境下で評価されることが多い。
これは、音声の書き起こしや手動のアライメントから得られる特徴に基づく分析では問題ではないが、取得条件の影響を強く受けている音響的特徴の有効性に深刻な疑念を呈している。
Pitt corpus から得られた ADreSSo データセットでこの問題を検討した。
MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムでは,音声信号の非音声部分のみを使用する場合,AD 患者をより高精度な制御から識別できることを示す。
私たちはこの発見を、別のスペイン語話者のデータセットで再現しました。
したがって、これらのデータセットでは、クラスは記録条件によって部分的に予測できる。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
認知症研究のための音響学的異種データセットは、いずれかのものであるべきであると提案する。
(a)手書き注釈から派生した文字や他の特徴のみを用いて分析する、又は
(b) 厳密に制御された音響条件で収集したデータセットに置き換えられた。
関連論文リスト
- Swin-BERT: A Feature Fusion System designed for Speech-based Alzheimer's Dementia Detection [4.668008953332776]
認知症自動検出のための音声ベースシステムSwin-BERTを提案する。
音響的部分については,移動窓のマルチヘッドアテンションを用いて音響系を設計する。
言語的部分については、ADの有無によって異なるリズム関連情報を削除し、音声記録を転写文に書き起こしする。
論文 参考訳(メタデータ) (2024-10-09T06:58:20Z) - Voice Disorder Analysis: a Transformer-based Approach [10.003909936239742]
本稿では,生音声信号を直接処理するトランスフォーマーを用いた新しいソリューションを提案する。
文読解や持続母音の発声など,多くの記録タイプを同時に検討する。
パブリックデータセットとプライベートデータセットの両方で得られた実験結果は、障害検出および分類タスクにおけるソリューションの有効性を示した。
論文 参考訳(メタデータ) (2024-06-20T19:29:04Z) - BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0]
音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文 参考訳(メタデータ) (2024-06-10T20:49:54Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Comparative Study of Speech Analysis Methods to Predict Parkinson's
Disease [0.0]
発声障害は、変性する前にこの疾患を検出するために用いられる。
この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。
全ての音響特性とMFCCを使い、SVMと共に98%の精度で最高の性能を実現した。
論文 参考訳(メタデータ) (2021-11-15T04:29:51Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。