論文の概要: Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device
- arxiv url: http://arxiv.org/abs/2604.27279v1
- Date: Thu, 30 Apr 2026 00:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.848729
- Title: Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device
- Title(参考訳): 3秒間オーディオから次なる発声イベントを予測する: 重度選択型プリキュラの階層評価と,フルオンデバイスへの展開モデル
- Authors: Nazar Kozak,
- Abstract要約: 我々は,SEP-28k(Apple,20,131本の3秒クリップ)でCNNをトレーニングし,次の連続クリップに障害があるかどうかを予測する。
集合目的は、重大事象が韻律前駆体を持つため、重大選択予測器に収束する。
相互人口移動: 微調整無しで、同じチェックポイントが1024名の小児Who-Stutter発話に適用され、AUC 0.674 の検出と 0.655 の予測が達成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-based stuttering systems to date have been trained for detection -- what disfluency is present now -- leaving prediction, the capability needed for closed-loop intervention, unstudied at deployable scale. We train a 616K-parameter CNN on SEP-28k (Apple, 20,131 three-second clips) to predict whether the next contiguous clip contains any disfluency. (1) Severity-selective precursor signal: on the episode-grouped test set, aggregate preblock AUC is modest (0.581 [0.542, 0.619]), but stratifying by upcoming event type reveals concentration on clinically severe events -- blocks 0.601 [0.554, 0.651] and sound repetitions 0.617 [0.567, 0.667] both exclude chance, while fillers (0.45) and word repetitions (0.49) are at chance. The aggregate objective converges to a severity-selective predictor because severe events carry prosodic precursors; fillers do not. (2) Cross-population transfer: without fine-tuning, the same checkpoint applied to 1,024 pediatric Children-Who-Stutter utterances (FluencyBank Teaching) attains AUC 0.674 detection and 0.655 prediction; DisfluencySpeech and LibriStutter reach 0.58-0.60 AUC. (3) Deployable on-device: lossless export to CoreML (1.19 MB), ONNX (40 KB), TFLite. Neural-Engine latency per 3 s window: 0.25 ms (iPhone 17 Pro Max, A19 Pro) to 0.55 ms (iPhone SE 3rd-gen and M1 Max). A 4 Hz streaming simulation uses 0.54% of the real-time budget. Platt-calibrated outputs (test ECE 0.010, from 0.177 raw). Five negative ablations -- output-level Future-Guided Learning, multi-clip GRU, time-axis concatenation, asymmetric focal loss, direct block-targeted training -- none improved over the vanilla baseline.
- Abstract(参考訳): これまでのオーディオベースのスタブリングシステムは、現在何が拡散しているのかを検知するために訓練されており、クローズドループの介入に必要な、デプロイ可能なスケールで調査されていない、予測を残している。
SEP-28k(Apple,20,131本の3秒クリップ)で616KパラメーターCNNをトレーニングし、次の連続クリップが拡散を含むかどうかを予測する。
1)重度選択前兆信号:エピソード群テストセットでは、集約プレブロックAUCは適度(0.581[0.542, 0.619])であるが、今後のイベントタイプによる成層化は、臨床上の重篤な事象(ブロック0.601[0.554, 0.651]とサウンド繰り返し0.617[0.567, 0.667]の両方を除外し、フィラー(0.45)と単語反復(0.49)が偶然発生する。
集合目的は、重大事象が韻律前駆体を運ぶため、重大選択予測器に収束する。
2) 相互人口移動: 微調整なしでは, 小児科小児Who-Stutter 発話(FluencyBank teaching)1,024 に適用される同じチェックポイントが AUC 0.674 の検出と 0.655 の予測が可能であり, DisfluencySpeech と LibriStutter は 0.58-0.60 AUC に達する。
(3) デバイス上のデプロイ可能: CoreML (1.19 MB)、ONNX (40 KB)、TFLiteへのロスレスエクスポート。
3sウィンドウあたりのニューラルエンジンのレイテンシ: 0.25 ms (iPhone 17 Pro Max, A19 Pro) から 0.55 ms (iPhone SE 3rd-gen, M1 Max) まで。
4Hzのストリーミングシミュレーションでは、リアルタイム予算の0.54%が使用される。
プラット校正出力(ECE 0.010、原料0.177)。
出力レベルのFuture-Guided Learning、マルチクリップGRU、時間軸連結、非対称焦点損失、直接ブロック目標トレーニングの5つの否定的な改善は、バニラベースラインよりも改善されていない。
関連論文リスト
- FASE : A Fairness-Aware Spatiotemporal Event Graph Framework for Predictive Policing [0.0]
予測犯罪リスクのみに基づいてパトロール資源を割り当てる予測的警察システムは、フィードバック駆動データを通じて意図せずに人種格差を増幅することができる。
本稿では,犯罪予測と公正な制約付きパトロールアロケーションと閉ループ展開フィードバックシミュレータを組み合わせた,時間的イベントグラフフレームワークFASEを提案する。
割り当てレベルの公平性だけでは、データの再トレーニングにおけるフィードバック誘起バイアスを排除せず、完全なパイプライン全体にわたる公平な介入の必要性を強調します。
論文 参考訳(メタデータ) (2026-04-19T21:22:45Z) - Representation Before Training: A Fixed-Budget Benchmark for Generative Medical Event Models [0.3250525349446657]
我々は,表現決定が1世紀前の事前学習予算の共有後の下流予測にどのように影響するかを評価する。
我々はMIMIC-IVで28個の整形トランスを訓練し,30個の臨床結果について評価した。
論文 参考訳(メタデータ) (2026-04-18T01:38:47Z) - PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities [86.63247982275396]
PRIMEは、欠落を認識したマルチモーダルな自己教師型事前トレーニングフレームワークである。
部分的に観察されたコホートから頑健で伝達可能な表現を学ぶ。
The Cancer Genome AtlasのPRIMEを32種類の癌に対してラベルフリープレトレーニングで評価した。
論文 参考訳(メタデータ) (2026-04-05T21:14:27Z) - Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification [1.2246649738388389]
本研究は,ビデオカプセル内視鏡(VCE)のためのマルチラベル分類フレームワークを提案する。
アーキテクチャと最適化レベルの戦略を組み合わせることで、Galarデータセットに固有の極端なクラス不均衡に対処する。
論文 参考訳(メタデータ) (2026-03-18T16:04:50Z) - Generalizable Diabetes Risk Stratification via Hybrid Machine Learning Models [0.0]
糖尿病は世界中で5億3700万人を超え、2045年までに7億8300万人に達すると予測されている。
2つのハイブリッド分類器を比較し、外部コホート上での一般化性を評価する。
論文 参考訳(メタデータ) (2025-09-24T21:18:52Z) - Impact of Labeling Inaccuracy and Image Noise on Tooth Segmentation in Panoramic Radiographs using Federated, Centralized and Local Learning [46.232038247686745]
フェデレートラーニング(FL)は、歯科診断AIにおけるプライバシー制約、不均一なデータ品質、一貫性のないラベル付けを緩和する。
複数のデータ破損シナリオを対象としたパノラマX線撮影において,FLと集中学習(CL)と局所学習(LL)を比較した。
論文 参考訳(メタデータ) (2025-09-08T11:07:47Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Predicting Overtakes in Trucks Using CAN Data [51.28632782308621]
CANデータからトラックの積載量の検出について検討する。
私たちの分析では、オーバーテイクイベントの最大10秒前をカバーしています。
我々は、オーバーテイク・トリガーに近づくと、オーバーテイク・クラスの予測スコアが増加する傾向にあることを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:58:22Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。