論文の概要: The Voice of Equity: A Systematic Evaluation of Bias Mitigation Techniques for Speech-Based Cognitive Impairment Detection Across Architectures and Demographics
- arxiv url: http://arxiv.org/abs/2601.16989v1
- Date: Wed, 07 Jan 2026 11:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.46255
- Title: The Voice of Equity: A Systematic Evaluation of Bias Mitigation Techniques for Speech-Based Cognitive Impairment Detection Across Architectures and Demographics
- Title(参考訳): エクイティの声: 音声に基づく認知的障害検出のためのバイアス除去手法の体系的評価
- Authors: Yasaman Haghbin, Sina Rashidi, Ali Zolnour, Maryam Zolnoori,
- Abstract要約: 本稿では,音声認識による認知障害検出のための総合的公正度分析フレームワークを提案する。
我々は,多言語NIA PrePARE Challengeデータセット上で,SpeechCARE-AGFとWhisper-LWF-LoRAの2つのトランスフォーマーアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 1.3549498237473223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based detection of cognitive impairment offers a scalable, non-invasive screening, yet algorithmic bias across demographic and linguistic subgroups remains critically underexplored. We present the first comprehensive fairness analysis framework for speech-based multi-class cognitive impairment detection, systematically evaluating bias mitigation across architectures, and demographic subgroups. We developed two transformer-based architectures, SpeechCARE-AGF and Whisper-LWF-LoRA, on the multilingual NIA PREPARE Challenge dataset. Unlike prior work that typically examines single mitigation techniques, we compared pre-processing, in-processing, and post-processing approaches, assessing fairness via Equality of Opportunity and Equalized Odds across gender, age, education, and language. Both models achieved strong performance (F1: SpeechCARE-AGF 70.87, Whisper-LWF-LoRA 71.46) but exhibited substantial fairness disparities. Adults >=80 showed lower sensitivity versus younger groups; Spanish speakers demonstrated reduced TPR versus English speakers. Mitigation effectiveness varied by architecture: oversampling improved SpeechCARE-AGF for older adults (80+ TPR: 46.19%=>49.97%) but minimally affected Whisper-LWF-LoRA. This study addresses a critical healthcare AI gap by demonstrating that architectural design fundamentally shapes bias patterns and mitigation effectiveness. Adaptive fusion mechanisms enable flexible responses to data interventions, while frequency reweighting offers robust improvements across architectures. Our findings establish that fairness interventions must be tailored to both model architecture and demographic characteristics, providing a systematic framework for developing equitable speech-based screening tools essential for reducing diagnostic disparities in cognitive healthcare.
- Abstract(参考訳): 音声による認知障害の検出は、スケーラブルで非侵襲的なスクリーニングを提供するが、人口統計学的および言語学的サブグループ間のアルゴリズム的偏見は、いまだに過小評価されている。
本稿では,言語に基づくマルチクラス認知障害検出のための最初の包括的公正度分析フレームワークを提案する。
我々は,多言語NIA PrePARE Challengeデータセット上で,SpeechCARE-AGFとWhisper-LWF-LoRAの2つのトランスフォーマーアーキテクチャを開発した。
単一の緩和テクニックを精査する以前の作業とは異なり、私たちは、前処理、内処理、後処理アプローチを比較し、男女、年齢、教育、言語にまたがる機会の平等と平等化オッドを通じて公正さを評価しました。
どちらのモデルも強い性能(F1: SpeechCARE-AGF 70.87、Whisper-LWF-LoRA 71.46)を得たが、相当な公平さの差を示した。
スペイン話者はTPRと英語話者の感度を低下させた。
改善されたSpeechCARE-AGF(80以上のTPR: 46.19%=>49.97%)のオーバーサンプリングはWhisper-LWF-LoRAに最小限の影響を与えた。
この研究は、アーキテクチャ設計がバイアスパターンと緩和効果を根本的に形作ることを示すことで、重要なヘルスケアAIギャップに対処する。
適応的な融合機構は、データ介入に対する柔軟な応答を可能にし、周波数再重み付けは、アーキテクチャ全体にわたって堅牢な改善を提供する。
以上の結果から, 公平な介入は, モデルアーキテクチャと人口動態特性の両方に合わせる必要があることが確認された。
関連論文リスト
- National Institute on Aging PREPARE Challenge: Early Detection of Cognitive Impairment Using Speech -- The SpeechCARE Solution [1.0486773259892048]
アルツハイマー病と関連する認知症は、60歳以上の成人の5人に1人に影響を与えるが、認知低下した人の半数以上が未診断のままである。
SpeechCAREは、認知障害に関連する微妙な音声関連手がかりをキャプチャするマルチモーダル音声処理パイプラインである。
その堅牢な前処理には、自動転写、大規模言語モデル(LLM)に基づく異常検出、タスク識別が含まれる。
論文 参考訳(メタデータ) (2025-11-11T11:39:20Z) - Evaluating and Mitigating Bias in AI-Based Medical Text Generation [35.24191727599811]
AIシステムは人間の偏見を反映し、増幅し、歴史的に貧弱な人口におけるパフォーマンスの質を低下させる。
本研究では,医療分野におけるテキスト生成における公平性問題について検討する。
偏りを低減するために,不整合群を選択的に最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-24T06:10:40Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models [6.854732863866882]
音声感情認識(SER)は近年,様々な分野に応用される可能性から,常に注目を集めている。
近年の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。
論文 参考訳(メタデータ) (2024-04-29T09:00:32Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。