論文の概要: The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology
- arxiv url: http://arxiv.org/abs/2509.16765v2
- Date: Wed, 08 Oct 2025 14:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.145803
- Title: The Sound of Syntax: Finetuning and Comprehensive Evaluation of Language Models for Speech Pathology
- Title(参考訳): 構文の音:音声病理における言語モデルの微細化と包括的評価
- Authors: Fagun Patel, Duc Q. Nguyen, Sang T. Truong, Jody Vaynshtok, Sanmi Koyejo, Nick Haber,
- Abstract要約: 340万人以上の子供が、臨床介入を必要とする言語障害を経験している。
言語病理医(SLP)の数は、患児の約20倍である。
- 参考スコア(独自算出の注目度): 28.33400979049354
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: According to the U.S. National Institutes of Health, more than 3.4 million children experience speech disorders that require clinical intervention. The number of speech-language pathologists (SLPs) is roughly 20 times fewer than the number of affected children, highlighting a significant gap in children's care and a pressing need for technological support that improves the productivity of SLPs. State-of-the-art multimodal language models (MLMs) show promise for supporting SLPs, but their use remains underexplored largely due to a limited understanding of their performance in high-stakes clinical settings. To address this gap, we collaborate with domain experts to develop a taxonomy of real-world use cases of MLMs in speech-language pathologies. Building on this taxonomy, we introduce the first comprehensive benchmark for evaluating MLM across five core use cases, each containing 1,000 manually annotated data points. This benchmark includes robustness and sensitivity tests under various settings, including background noise, speaker gender, and accent. Our evaluation of 15 state-of-the-art MLMs reveals that no single model consistently outperforms others across all tasks. Notably, we find systematic disparities, with models performing better on male speakers, and observe that chain-of-thought prompting can degrade performance on classification tasks with large label spaces and narrow decision boundaries. Furthermore, we study fine-tuning MLMs on domain-specific data, achieving improvements of over 10\% compared to base models. These findings highlight both the potential and limitations of current MLMs for speech-language pathology applications, underscoring the need for further research and targeted development.
- Abstract(参考訳): アメリカ国立衛生研究所によると、340万人以上の子供が臨床介入を必要とする発声障害を経験している。
言語病理医(SLP)の数は、患児の約20倍であり、子どものケアの著しいギャップと、SLPの生産性を向上させる技術サポートの必要性を強調している。
最先端のマルチモーダル言語モデル(MLM)は、SLPをサポートすることを約束するが、その使用法は、ハイテイクな臨床環境での性能の理解が限られているため、未探索のままである。
このギャップに対処するため、我々はドメインの専門家と共同で、言語病理学におけるMLMの現実世界のユースケースの分類を開発する。
この分類に基づいて、我々は5つの中核ユースケースにまたがってMLMを評価するための最初の総合的なベンチマークを導入し、それぞれが1000の注釈付きデータポイントを含む。
このベンチマークには、バックグラウンドノイズ、話者の性別、アクセントなど、さまざまな設定下での堅牢性と感度テストが含まれている。
15の最先端MLMを評価した結果,1つのモデルが全てのタスクにおいて常に他よりも優れていることが判明した。
特に,モデルが男性話者に対して良好に機能するなど,系統的な差異がみられ,大きなラベル空間と狭い決定境界を持つ分類タスクにおいて,チェーン・オブ・プルーピングが性能を低下させる可能性が示唆された。
さらに、ドメイン固有データに対する微調整MDMについて検討し、ベースモデルと比較して10倍以上の改善を実現した。
これらの知見は、言語病理学応用における現在のMLMの可能性と限界を浮き彫りにして、さらなる研究とターゲット開発の必要性を浮き彫りにしている。
関連論文リスト
- RoBiologyDataChoiceQA: A Romanian Dataset for improving Biology understanding of Large Language Models [0.15293427903448023]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな可能性を証明している。
本研究は,複数選択生物学の疑問に対するルーマニア語の新たなデータセットについて紹介する。
論文 参考訳(メタデータ) (2025-09-30T05:41:50Z) - BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text [10.071956824618418]
大規模言語モデル(LLM)は医療応用に大きな期待を持ち、急速に進化している。
既存のベンチマークのほとんどは、医療試験スタイルの質問やPubMedから派生したテキストに依存している。
9言語にわたる実世界の臨床データソースから得られた87のタスクからなる総合的なベンチマークBRIDGEを提案する。
論文 参考訳(メタデータ) (2025-04-28T04:13:18Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Are Large Language Models Ready for Healthcare? A Comparative Study on
Clinical Language Understanding [12.128991867050487]
大規模言語モデル(LLM)は、医療を含む様々な分野で大きな進歩を遂げている。
本研究では,臨床言語理解タスクの領域における最先端LCMの評価を行った。
論文 参考訳(メタデータ) (2023-04-09T16:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。