論文の概要: Huntington Disease Automatic Speech Recognition with Biomarker Supervision
- arxiv url: http://arxiv.org/abs/2603.11168v1
- Date: Wed, 11 Mar 2026 18:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.55515
- Title: Huntington Disease Automatic Speech Recognition with Biomarker Supervision
- Title(参考訳): Biomarker Supervision を用いたハンティントン病自動音声認識
- Authors: Charles L. Wang, Cady Chen, Ziwei Gong, Julia Hirschberg,
- Abstract要約: エンドツーエンドのASR訓練に使用しなかった高忠実度臨床音声コーパスを用いた体系的HD-ASR研究を行った。
We compare multiple ASR family under a unified evaluation, analysis as the WER as also as substitution, deletion, and insert pattern。
HD音声はアーキテクチャ固有のエラーシステマを誘導し、Parakeet-TDTはエンコーダデコーダとCTCベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.152892112388708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) for pathological speech remains underexplored, especially for Huntington's disease (HD), where irregular timing, unstable phonation, and articulatory distortion challenge current models. We present a systematic HD-ASR study using a high-fidelity clinical speech corpus not previously used for end-to-end ASR training. We compare multiple ASR families under a unified evaluation, analyzing WER as well as substitution, deletion, and insertion patterns. HD speech induces architecture-specific error regimes, with Parakeet-TDT outperforming encoder-decoder and CTC baselines. HD-specific adaptation reduces WER from 6.99% to 4.95% and we also propose a method for using biomarker-based auxiliary supervision and analyze how error behavior is reshaped in severity-dependent ways rather than uniformly improving WER. We open-source all code and models.
- Abstract(参考訳): 特にハンティントン病 (HD) では, 不規則なタイミング, 不安定な発声, 調音障害を呈するモデルが検討されている。
エンドツーエンドのASR訓練に使用しなかった高忠実度臨床音声コーパスを用いた体系的HD-ASR研究を行った。
We compare multiple ASR family under a unified evaluation, analysis as the WER as also as substitution, deletion, and insert pattern。
HD音声はアーキテクチャ固有のエラーシステマを誘導し、Parakeet-TDTはエンコーダデコーダとCTCベースラインを上回ります。
HD固有の適応はWERを6.99%から4.95%に減らし、バイオマーカーに基づく補助的な監視手法を提案し、WERを均一に改善するのではなく、重度に依存した方法でエラーの振る舞いがどのように再形成されるかを分析する。
すべてのコードとモデルをオープンソースにしています。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文 参考訳(メタデータ) (2025-10-18T16:26:16Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - Benchmarking Foundation Speech and Language Models for Alzheimer's Disease and Related Dementia Detection from Spontaneous Speech [14.936023751079654]
アルツハイマー病と認知症は進行性神経変性疾患である。
自発音声には、非侵襲的なバイオマーカーとして機能する豊富な音響マーカーと言語マーカーが含まれている。
大規模オーディオまたはテキストデータに基づいて事前訓練された基礎モデルは、文脈的および音響的特徴を符号化した高次元埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-09T17:52:31Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Conformer Based Elderly Speech Recognition System for Alzheimer's
Disease Detection [62.23830810096617]
アルツハイマー病(AD)の早期診断は、予防ケアがさらなる進行を遅らせるのに不可欠である。
本稿では,DementiaBank Pitt コーパスをベースとした最新のコンバータに基づく音声認識システムの開発について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:50:55Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Comparing Natural Language Processing Techniques for Alzheimer's
Dementia Prediction in Spontaneous Speech [1.2805268849262246]
アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を与える不治の、不安定で進行性の神経変性疾患である。
自発音声タスクによるアルツハイマー認知は、ADの分類と予測のために、音響的に前処理とバランスの取れたデータセットを提供する。
論文 参考訳(メタデータ) (2020-06-12T17:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。