論文の概要: Revisiting Rule-Based Stuttering Detection: A Comprehensive Analysis of Interpretable Models for Clinical Applications
- arxiv url: http://arxiv.org/abs/2508.16681v1
- Date: Thu, 21 Aug 2025 15:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.117995
- Title: Revisiting Rule-Based Stuttering Detection: A Comprehensive Analysis of Interpretable Models for Clinical Applications
- Title(参考訳): 規則に基づくスタッタ検出の再検討:臨床応用のための解釈可能なモデルの包括的解析
- Authors: Eric Zhang,
- Abstract要約: 本稿では,ルールに基づく散乱検出システムについて包括的な解析を行う。
本稿では,発話速度正規化,マルチレベル音響特徴分析,階層的決定構造を組み込んだルールベースフレームワークを提案する。
規則に基づくシステムは特に延長検出(97~99%の精度)に優れ、様々な発話速度で安定した性能を提供することを示した。
- 参考スコア(独自算出の注目度): 5.692357910541593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stuttering affects approximately 1% of the global population, impacting communication and quality of life. While recent advances in deep learning have pushed the boundaries of automatic speech dysfluency detection, rule-based approaches remain crucial for clinical applications where interpretability and transparency are paramount. This paper presents a comprehensive analysis of rule-based stuttering detection systems, synthesizing insights from multiple corpora including UCLASS, FluencyBank, and SEP-28k. We propose an enhanced rule-based framework that incorporates speaking-rate normalization, multi-level acoustic feature analysis, and hierarchical decision structures. Our approach achieves competitive performance while maintaining complete interpretability-critical for clinical adoption. We demonstrate that rule-based systems excel particularly in prolongation detection (97-99% accuracy) and provide stable performance across varying speaking rates. Furthermore, we show how these interpretable models can be integrated with modern machine learning pipelines as proposal generators or constraint modules, bridging the gap between traditional speech pathology practices and contemporary AI systems. Our analysis reveals that while neural approaches may achieve marginally higher accuracy in unconstrained settings, rule-based methods offer unique advantages in clinical contexts where decision auditability, patient-specific tuning, and real-time feedback are essential.
- Abstract(参考訳): スパッタリングは世界の人口の約1%に影響し、コミュニケーションや生活の質に影響を及ぼす。
近年の深層学習の進歩は、自動音声のディフルエンシ検出の境界を押し上げているが、解釈可能性と透明性が最重要である臨床応用にはルールベースのアプローチが不可欠である。
本稿では,UCLASS, FluencyBank, SEP-28kを含む複数のコーパスからの知見を総合的に分析し, ルールベースの散乱検出システムについて述べる。
本稿では,発話速度正規化,マルチレベル音響特徴分析,階層的決定構造を組み込んだルールベースフレームワークを提案する。
本手法は, 臨床応用に不可欠な完全解釈可能性を維持しつつ, 競争性能を向上する。
規則に基づくシステムは特に延長検出(97~99%の精度)に優れ、様々な発話速度で安定した性能を提供することを示した。
さらに、これらの解釈可能なモデルを、提案ジェネレータや制約モジュールとして、現代の機械学習パイプラインに統合し、従来の音声病理と現代のAIシステムとのギャップを埋める方法を示す。
分析の結果, 神経アプローチは制約のない環境では比較的高い精度が得られるが, 決定監査性, 患者固有のチューニング, リアルタイムフィードバックが不可欠である臨床文脈では, ルールベースの手法が独特な優位性をもたらすことが明らかとなった。
関連論文リスト
- Multimodal Attention-Aware Fusion for Diagnosing Distal Myopathy: Evaluating Model Interpretability and Clinician Trust [19.107204920543676]
遠位筋症は広範な臨床症状を呈する骨格筋疾患の一群である。
本稿では,2つの異なる深層学習モデルから抽出した特徴を組み合わせたマルチモーダル・アウェア・フュージョンアーキテクチャを提案する。
提案手法は,これらの特徴をアテンションゲート機構を通じて統合し,予測性能と解釈可能性の両方を向上させる。
論文 参考訳(メタデータ) (2025-08-02T11:08:55Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment [0.8458496687170665]
うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。
本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。
大規模言語モデル予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
論文 参考訳(メタデータ) (2025-04-02T14:19:06Z) - Systematic Literature Review on Clinical Trial Eligibility Matching [0.24554686192257422]
レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文 参考訳(メタデータ) (2025-03-02T11:45:50Z) - Doctor-in-the-Loop: An Explainable, Multi-View Deep Learning Framework for Predicting Pathological Response in Non-Small Cell Lung Cancer [0.6800826356148091]
非小細胞肺癌(NSCLC)はいまだに世界的な健康上の課題である。
専門家主導のドメイン知識と説明可能な人工知能技術を統合する新しいフレームワークであるDoctor-in-the-Loopを提案する。
アプローチでは段階的なマルチビュー戦略を採用し,より広いコンテキスト特徴からより微細で病変特異的な詳細まで,モデルの焦点を段階的に洗練する。
論文 参考訳(メタデータ) (2025-02-21T16:35:30Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - The Medkit-Learn(ing) Environment: Medical Decision Modelling through
Simulation [81.72197368690031]
医用シーケンシャルな意思決定に特化して設計された新しいベンチマークスイートを提案する。
Medkit-Learn(ing) Environmentは、高忠実度合成医療データに簡単かつ簡単にアクセスできるPythonパッケージである。
論文 参考訳(メタデータ) (2021-06-08T10:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。