論文の概要: Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework
- arxiv url: http://arxiv.org/abs/2509.14304v1
- Date: Wed, 17 Sep 2025 14:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.928455
- Title: Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework
- Title(参考訳): 実時間スタッタ音声アプリケーションにおけるUDMシリーズの展開:臨床評価フレームワーク
- Authors: Eric Zhang, Li Wei, Sarah Chen, Michael Wang,
- Abstract要約: 音声検出システムは、伝統的に精度と臨床的解釈性のトレードオフに悩まされてきた。
本稿では、モジュラーアーキテクチャ、明示的な音素アライメント、実際の臨床展開のための解釈可能な出力を組み合わせたUnconstrained Dysfluency Modeling (UDM)シリーズについて述べる。
- 参考スコア(独自算出の注目度): 6.837099592935974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stuttered and dysfluent speech detection systems have traditionally suffered from the trade-off between accuracy and clinical interpretability. While end-to-end deep learning models achieve high performance, their black-box nature limits clinical adoption. This paper looks at the Unconstrained Dysfluency Modeling (UDM) series-the current state-of-the-art framework developed by Berkeley that combines modular architecture, explicit phoneme alignment, and interpretable outputs for real-world clinical deployment. Through extensive experiments involving patients and certified speech-language pathologists (SLPs), we demonstrate that UDM achieves state-of-the-art performance (F1: 0.89+-0.04) while providing clinically meaningful interpretability scores (4.2/5.0). Our deployment study shows 87% clinician acceptance rate and 34% reduction in diagnostic time. The results provide strong evidence that UDM represents a practical pathway toward AI-assisted speech therapy in clinical environments.
- Abstract(参考訳): 音声検出システムは、伝統的に精度と臨床的解釈性のトレードオフに悩まされてきた。
エンドツーエンドのディープラーニングモデルは高いパフォーマンスを達成するが、ブラックボックスの性質は臨床応用を制限する。
本稿では,モジュールアーキテクチャ,明示的な音素アライメント,実際の臨床展開のための解釈可能なアウトプットを組み合わせた,現在の最先端フレームワークであるUnconstrained Dysfluency Modeling (UDM)シリーズについて述べる。
患者と認定言語病理医(SLPs)の広範な実験を通して,UDMは,臨床的に有意な解釈可能性スコア(4.2/5.0)を提供しながら,最先端のパフォーマンス(F1: 0.89+-0.04)を達成することを示した。
デプロイ調査では,臨床受入率87%,診断時間34%が減少していた。
以上の結果から,UDMが臨床環境におけるAI支援音声治療への実践的道筋を示すことが示唆された。
関連論文リスト
- From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - FineEHR: Refine Clinical Note Representations to Improve Mortality
Prediction [3.9026461169566673]
大規模な電子健康記録は、臨床テキストとバイタルサインデータの豊富な機械学習モデルを提供する。
臨床ノート分析のための高度な自然言語処理(NLP)アルゴリズムの出現にもかかわらず、生臨床データに存在する複雑なテキスト構造とノイズは重大な課題となっている。
本稿では,2つの表現学習技術,すなわちメートル法学習と微調整技術を用いて,臨床ノートの埋め込みを洗練させるシステムFINEEHRを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。