論文の概要: Multimodal LLMs are not all you need for Pediatric Speech Language Pathology
- arxiv url: http://arxiv.org/abs/2604.26568v1
- Date: Wed, 29 Apr 2026 11:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.381106
- Title: Multimodal LLMs are not all you need for Pediatric Speech Language Pathology
- Title(参考訳): 小児音声言語病理学におけるマルチモーダルLLM
- Authors: Darren Fürst, Sebastian Steindl, Ulrich Schäfer,
- Abstract要約: 音声障害(SSD)は子供の約5%に影響を及ぼすが、言語病理学者は深刻なスタッフ不足と管理不能な症例負荷に直面している。
グラニュラーマルチタスクHelmHelmPlusベンチマークにおいて,SSD分類に対する階層的アプローチを検証した。
本稿では,2進分類からタイプ,症状分類へのカスケード手法を提案する。
- 参考スコア(独自算出の注目度): 3.058685580689604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Sound Disorders (SSD) affect roughly five percent of children, yet speech-language pathologists face severe staffing shortages and unmanageable caseloads. We test a hierarchical approach to SSD classification on the granular multi-task SLPHelmUltraSuitePlus benchmark. We propose a cascading approach from binary classification to type, and symptom classification. By fine-tuning Speech Representation Models (SRM), and using targeted data augmentation we mitigate biases found by previous works, and improve upon all clinical tasks in the benchmark. We also treat Automatic Speech Recognition (ASR) with our data augmentation approach. Our results demonstrate that SRM consistently outperform the LLM-based state-of-the-art across all evaluated tasks by a large margin. We publish our models and code to foster future research.
- Abstract(参考訳): 音声障害(SSD)は子供の約5%に影響を及ぼすが、言語病理学者は深刻なスタッフ不足と管理不能な症例負荷に直面している。
グラニュラーマルチタスクSLPHelmUltraSuitePlusベンチマークにおいて,SSD分類に対する階層的アプローチを検証した。
本稿では,2進分類からタイプ,症状分類へのカスケード手法を提案する。
音声表現モデル(SRM)を微調整し、ターゲットデータ拡張を使用することで、以前の研究で見いだされたバイアスを軽減し、ベンチマークにおけるすべての臨床タスクを改善する。
また,データ拡張手法を用いて音声認識(ASR)も扱う。
以上の結果から,SRM は LLM をベースとした全ての評価タスクにおいて,一貫した性能向上を実現していることがわかった。
我々は、将来の研究を促進するために、モデルとコードを公開します。
関連論文リスト
- Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech [69.86604856129883]
外科的音声品質評価(DSQA)は臨床診断と包括的音声技術において重要である。
本研究では,未ラベルの変形音声と大規模典型的な音声データセットを併用した3段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T23:00:07Z) - The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology [28.33400979049354]
340万人以上の子供が、臨床介入を必要とする言語障害を経験している。
言語病理医(SLP)の数は、患児の約20倍である。
論文 参考訳(メタデータ) (2025-09-20T18:10:30Z) - Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies [9.1953139634128]
本研究では,医療画像分類作業における小言語モデル(SLM)の性能について検討する。
NIH Chest X-ray データセットを用いて胸部X線位置を分類する作業において,複数のSLMを評価した。
以上の結果から,一部のSLMは良好なプロンプトで競合精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-08-18T21:48:45Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。