論文の概要: The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology
- arxiv url: http://arxiv.org/abs/2509.16765v1
- Date: Sat, 20 Sep 2025 18:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.963557
- Title: The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology
- Title(参考訳): 構文の音:音声病理における言語モデルの微細化と包括的評価
- Authors: Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber,
- Abstract要約: 340万人以上の子供が、臨床介入を必要とする言語障害を経験している。
言語病理医(SLP)の数は、患児の約20倍である。
- 参考スコア(独自算出の注目度): 28.33400979049354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use remains underexplored largely due to a limited understanding of their performance in high-stakes clinical settings. To address this gap, we collaborate with domain experts to develop a taxonomy of real-world use cases of MLMs in speech-language pathologies. Building on this taxonomy, we introduce the first comprehensive benchmark for evaluating MLM across five core use cases, each containing 1,000 manually annotated data points. This benchmark includes robustness and sensitivity tests under various settings, including background noise, speaker gender, and accent. Our evaluation of 15 state-of-the-art MLMs reveals that no single model consistently outperforms others across all tasks. Notably, we find systematic disparities, with models performing better on male speakers, and observe that chain-of-thought prompting can degrade performance on classification tasks with large label spaces and narrow decision boundaries. Furthermore, we study fine-tuning MLMs on domain-specific data, achieving improvements of over 30% compared to base models. These findings highlight both the potential and limitations of current MLMs for speech-language pathology applications, underscoring the need for further research and targeted development.
- Abstract(参考訳): アメリカ国立衛生研究所によると、340万人以上の子供が臨床介入を必要とする発声障害を経験している。
言語病理医(SLP)の数は、患児の約20倍であり、子どものケアの著しいギャップと、SLPの生産性を向上させる技術サポートの必要性を強調している。
最先端のマルチモーダル言語モデル(MLM)は、SLPをサポートすることを約束するが、その使用法は、ハイテイクな臨床環境での性能の理解が限られているため、未探索のままである。
このギャップに対処するため、我々はドメインの専門家と共同で、言語病理学におけるMLMの現実世界のユースケースの分類を開発する。
この分類に基づいて、我々は5つの中核ユースケースにまたがってMLMを評価するための最初の総合的なベンチマークを導入し、それぞれが1000の注釈付きデータポイントを含む。
このベンチマークには、バックグラウンドノイズ、話者の性別、アクセントなど、さまざまな設定下での堅牢性と感度テストが含まれている。
15の最先端MLMを評価した結果,1つのモデルが全てのタスクにおいて常に他よりも優れていることが判明した。
特に,モデルが男性話者に対して良好に機能するなど,系統的な差異がみられ,大きなラベル空間と狭い決定境界を持つ分類タスクにおいて,チェーン・オブ・プルーピングが性能を低下させる可能性が示唆された。
さらに、ドメイン固有データに対する微調整MDMについて検討し、ベースモデルと比較して30%以上の改善を実現した。
これらの知見は、言語病理学応用における現在のMLMの可能性と限界を浮き彫りにして、さらなる研究とターゲット開発の必要性を浮き彫りにしている。
関連論文リスト
- BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。
既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。
9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。