論文の概要: Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech
- arxiv url: http://arxiv.org/abs/2603.15988v1
- Date: Mon, 16 Mar 2026 23:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.030906
- Title: Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech
- Title(参考訳): 外科的音声のロバスト度評価のためのデータ強化
- Authors: Jaesung Bae, Xiuwen Zheng, Minje Kim, Chang D. Yoo, Mark Hasegawa-Johnson,
- Abstract要約: 外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 69.86604856129883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dysarthric speech quality assessment (DSQA) is critical for clinical diagnostics and inclusive speech technologies. However, subjective evaluation is costly and difficult to scale, and the scarcity of labeled data limits robust objective modeling. To address this, we propose a three-stage framework that leverages unlabeled dysarthric speech and large-scale typical speech datasets to scale training. A teacher model first generates pseudo-labels for unlabeled samples, followed by weakly supervised pretraining using a label-aware contrastive learning strategy that exposes the model to diverse speakers and acoustic conditions. The pretrained model is then fine-tuned for the downstream DSQA task. Experiments on five unseen datasets spanning multiple etiologies and languages demonstrate the robustness of our approach. Our Whisper-based baseline significantly outperforms SOTA DSQA predictors such as SpICE, and the full framework achieves an average SRCC of 0.761 across unseen test datasets.
- Abstract(参考訳): 外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
しかし、主観評価は費用がかかり、スケールが難しく、ラベル付きデータの不足は頑健な客観的モデリングを制限している。
そこで本研究では,未ラベルの変形音声と大規模音声データセットを併用した3段階のフレームワークを提案する。
教師モデルはまず、ラベル付きサンプルの擬似ラベルを生成し、続いてラベル付きコントラスト学習戦略を用いて、多様な話者や音響条件にモデルを公開する弱教師付き事前学習を行う。
事前訓練されたモデルは、下流のDSQAタスクのために微調整される。
複数のエチオロジーと言語にまたがる5つの未知のデータセットの実験は、我々のアプローチの堅牢性を示している。
我々のWhisperベースのベースラインは、SpICEなどのSOTA DSQA予測よりも大幅に優れており、完全なフレームワークは、目に見えないテストデータセットで平均0.761のSRCCを達成する。
関連論文リスト
- Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Semi-Supervised Diseased Detection from Speech Dialogues with Multi-Level Data Modeling [27.224093715611534]
本稿では,音声から医療状況を検出するための新しい枠組みを提案する。
エンドツーエンドアプローチは,多粒度特徴を動的に集約し,高品質な擬似ラベルを生成する。
この研究は、医学的音声分析における弱い極端の監督から学ぶための原則的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-08T09:10:16Z) - Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification [5.59515535487396]
深層学習モデルは、医用画像解析において顕著な成功を収めてきたが、大規模かつ精巧に注釈付けされたデータセットの要求に制約されている。
ゼロトレーニングタスク特化モデル合成(ZS-TMS)という新しいパラダイムを提案する。
既存のモデルに適応したり、新しいモデルをトレーニングする代わりに、大規模で事前訓練された生成エンジンを活用して、タスク固有の分類器のパラメータ集合全体を直接的に合成する。
論文 参考訳(メタデータ) (2025-11-18T03:12:01Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment [6.284142286798582]
以上の結果から,HuBERTは難聴分類,単語認識,インテリジェンス分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ+24.7%,+61%,テキストおよび+7.2%の精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。