論文の概要: Bias and Fairness in Self-Supervised Acoustic Representations for Cognitive Impairment Detection
- arxiv url: http://arxiv.org/abs/2603.02937v1
- Date: Tue, 03 Mar 2026 12:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.792655
- Title: Bias and Fairness in Self-Supervised Acoustic Representations for Cognitive Impairment Detection
- Title(参考訳): 聴覚障害検出のための自己教師付き音響表現のバイアスと公正性
- Authors: Kashaf Gulzar, Korbinian Riedhammer, Elmar Nöth, Andreas K. Maier, Paula Andrea Pérez-Toro,
- Abstract要約: 音声による認知障害の検出(CI)は早期診断に有望な非侵襲的アプローチを提供する。
本研究では,DementiaBank Pitt Corpus を用いた音響ベースCIと抑うつ分類の系統的バイアス分析を行った。
- 参考スコア(独自算出の注目度): 31.057972486149268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based detection of cognitive impairment (CI) offers a promising non-invasive approach for early diagnosis, yet performance disparities across demographic and clinical subgroups remain underexplored, raising concerns around fairness and generalizability. This study presents a systematic bias analysis of acoustic-based CI and depression classification using the DementiaBank Pitt Corpus. We compare traditional acoustic features (MFCCs, eGeMAPS) with contextualized speech embeddings from Wav2Vec 2.0 (W2V2), and evaluate classification performance across gender, age, and depression-status subgroups. For CI detection, higher-layer W2V2 embeddings outperform baseline features (UAR up to 80.6\%), but exhibit performance disparities; specifically, females and younger participants demonstrate lower discriminative power (\(AUC\): 0.769 and 0.746, respectively) and substantial specificity disparities (\(Δ_{spec}\) up to 18\% and 15\%, respectively), leading to a higher risk of misclassifications than their counterparts. These disparities reflect representational biases, defined as systematic differences in model performance across demographic or clinical subgroups. Depression detection within CI subjects yields lower overall performance, with mild improvements from low and mid-level W2V2 layers. Cross-task generalization between CI and depression classification is limited, indicating that each task depends on distinct representations. These findings emphasize the need for fairness-aware model evaluation and subgroup-specific analysis in clinical speech applications, particularly in light of demographic and clinical heterogeneity in real-world applications.
- Abstract(参考訳): 音声による認知障害の検出(CI)は早期診断に有望な非侵襲的アプローチを提供するが、人口統計学的・臨床的サブグループ間のパフォーマンス格差は未発見のままであり、公平性と一般化性に関する懸念が高まる。
本研究では,DementiaBank Pitt Corpus を用いた音響ベースCIと抑うつ分類の系統的バイアス分析を行った。
We compare traditional acoustic features (MFCCs, eGeMAPS) with contextualized speech embeddeds from Wav2Vec 2.0 (W2V2) and evaluation of classification performance across gender, age, and depression-status subgroups。
CI検出では、高層W2V2埋め込みはベースライン特性(UARが最大80.6\%まで)より優れるが、パフォーマンスの格差を示す。特に、女性と若年者では、識別力の低下(それぞれ0.769と0.746)と、実質的な特異性格差(\(Δ_{spec}\)が18\%と15\%に増加し、分類ミスのリスクが高い。
これらの格差は、人口統計学的または臨床的サブグループ間でのモデルパフォーマンスの体系的な違いとして定義される表現バイアスを反映している。
CI被検体における抑うつ検出は、低レベル層と中レベルのW2V2層からわずかに改善され、全体的なパフォーマンスが低下する。
CIとうつ病分類の間のクロスタスクの一般化は制限されており、それぞれのタスクが異なる表現に依存することを示している。
これらの知見は, 臨床音声応用における公平性を考慮したモデル評価とサブグループ特化分析の必要性, 特に実世界応用における人口統計学的および臨床異質性に着目して強調した。
関連論文リスト
- The Voice of Equity: A Systematic Evaluation of Bias Mitigation Techniques for Speech-Based Cognitive Impairment Detection Across Architectures and Demographics [1.3549498237473223]
本稿では,音声認識による認知障害検出のための総合的公正度分析フレームワークを提案する。
我々は,多言語NIA PrePARE Challengeデータセット上で,SpeechCARE-AGFとWhisper-LWF-LoRAの2つのトランスフォーマーアーキテクチャを開発した。
論文 参考訳(メタデータ) (2026-01-07T11:47:24Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Class Distance Weighted Cross Entropy Loss for Classification of Disease Severity [2.7574609288882312]
新たな損失関数であるクラス距離重み付きクロスエントロピー(CDW-CE)を提案する。
これは、予測されたクラスと実際のクラスが遠く離れているときに、誤分類をより厳しく罰する。
以上の結果から,CDW-CEは日常的な画像分類タスクの性能を一貫して向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-02T08:06:14Z) - The Role of Subgroup Separability in Group-Fair Medical Image
Classification [18.29079361470428]
診断などの系統的バイアスを伴うデータを用いて, サブグループ分離性, サブグループ分離性, 性能劣化の関係について検討した。
私たちの発見は、モデルがどのように偏見を抱くかという問題に新たな光を当て、公正な医療画像AIの開発に重要な洞察を与えました。
論文 参考訳(メタデータ) (2023-07-06T06:06:47Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Learning Discriminative Representation via Metric Learning for
Imbalanced Medical Image Classification [52.94051907952536]
本稿では,特徴抽出器がより識別的な特徴表現を抽出するのを助けるために,2段階フレームワークの第1段階にメトリック学習を組み込むことを提案する。
主に3つの医用画像データセットを用いて実験したところ、提案手法は既存の1段階と2段階のアプローチより一貫して優れていた。
論文 参考訳(メタデータ) (2022-07-14T14:57:01Z) - Dynamic Sub-Cluster-Aware Network for Few-Shot Skin Disease
Classification [31.539129126161978]
本稿では,まれな皮膚疾患の診断における精度を高めるためのサブクラスタ・アウェア・ネットワーク(SCAN)という新しいアプローチを提案する。
SCANの設計を動機づける重要な洞察は、クラス内の皮膚疾患の画像が複数のサブクラスタを示すことが多いという観察である。
数発の皮膚疾患分類のための2つのパブリックデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-07-03T16:06:04Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speech based Depression Severity Level Classification Using a
Multi-Stage Dilated CNN-LSTM Model [5.419077350924331]
抑うつ分類タスクを重症度レベルの分類問題として定式化し、分類結果により粒度を提供する。
我々は,精神運動の減速によって生じる神経運動の調整の変化を捉えるために,調音コーディネート機能(ACF)を開発した。
論文 参考訳(メタデータ) (2021-04-09T05:10:08Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。