論文の概要: StutterCut: Uncertainty-Guided Normalised Cut for Dysfluency Segmentation
- arxiv url: http://arxiv.org/abs/2508.02255v1
- Date: Mon, 04 Aug 2025 10:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.280469
- Title: StutterCut: Uncertainty-Guided Normalised Cut for Dysfluency Segmentation
- Title(参考訳): StutterCut: ディフルエンシセグメンテーションのための不確かさガイド付き正規化カット
- Authors: Suhita Ghosh, Melanie Jouaiti, Jan-Ole Perschewski, Sebastian Stober,
- Abstract要約: 本稿では,グラフ問題分割問題としてディフルエンシセグメンテーションを定式化する半教師付きフレームワークであるStutterCutを紹介する。
弱い(発話レベル)ラベルに基づいて訓練された擬似オーラル分類器を用いてノード間の接続を洗練する。
フレームレベルのディフルエンシ境界を4つのディフルエンシタイプに組み込むことで、弱いラベル付きFluencyBankデータセットを拡張します。
- 参考スコア(独自算出の注目度): 0.0874967598360817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting and segmenting dysfluencies is crucial for effective speech therapy and real-time feedback. However, most methods only classify dysfluencies at the utterance level. We introduce StutterCut, a semi-supervised framework that formulates dysfluency segmentation as a graph partitioning problem, where speech embeddings from overlapping windows are represented as graph nodes. We refine the connections between nodes using a pseudo-oracle classifier trained on weak (utterance-level) labels, with its influence controlled by an uncertainty measure from Monte Carlo dropout. Additionally, we extend the weakly labelled FluencyBank dataset by incorporating frame-level dysfluency boundaries for four dysfluency types. This provides a more realistic benchmark compared to synthetic datasets. Experiments on real and synthetic datasets show that StutterCut outperforms existing methods, achieving higher F1 scores and more precise stuttering onset detection.
- Abstract(参考訳): 発声障害の検出と分節は,効果的な音声治療とリアルタイムフィードバックに不可欠である。
しかし、ほとんどの手法は発話レベルでの拡散率のみを分類する。
本稿では,重なり合うウィンドウからの音声埋め込みをグラフノードとして表現するグラフ分割問題として,ディフルエンシ分割を定式化する半教師付きフレームワークであるStutterCutを紹介する。
我々は、弱い(発話レベル)ラベルで訓練された擬似オークル分類器を用いてノード間の接続を洗練し、モンテカルロのドロップアウトの不確実性尺度によってその影響を制御した。
さらに、フレームレベルのディフルエンシ境界を4つのディフルエンシタイプに組み込むことで、弱いラベル付きFluencyBankデータセットを拡張します。
これは、合成データセットと比較してより現実的なベンチマークを提供する。
実データと合成データセットの実験では、StutterCutは既存の手法よりも優れており、より高いF1スコアとより正確な散乱オンセット検出を実現している。
関連論文リスト
- Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection [5.95376852691752]
発声障害の検出は臨床診断と言語評価に不可欠である。
このデータセットは、単語レベルと音素レベルの両方にまたがる11のディスフルエンシカテゴリをキャプチャする。
このリソースを基盤として、エンド・ツー・エンドのディフルエンシ検出フレームワークを改善します。
論文 参考訳(メタデータ) (2025-05-28T06:52:10Z) - Confidence HNC: A Network Flow Technique for Binary Classification with Noisy Labels [0.0]
本稿では,クラスタ内のサンプル間の大きな類似性と,クラスタと補体間の大きな相違性という,2つの目的のバランスをとる分類法について考察する。
HNCまたはSNCと呼ばれるこの方法は、シードノードまたはラベル付きサンプルを必要とし、そのうちの少なくとも1つはクラスタにあり、少なくとも1つは補体である。
ここでの貢献は、信頼HNCと呼ばれるHNCに基づくノイズラベルの存在における新しい方法である。
論文 参考訳(メタデータ) (2025-03-04T07:21:40Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Constrained self-supervised method with temporal ensembling for fiber
bundle detection on anatomic tracing data [0.08329098197319453]
本研究では,マカク脳のトレーサ部における繊維束の正確なセグメンテーションのための自己教師付き損失関数を用いた深層学習法を提案する。
異なるマカクの未確認区間における本手法の評価は, 真正率0.90の有望な結果をもたらす。
論文 参考訳(メタデータ) (2022-08-06T19:17:02Z) - Optimizing Diffusion Rate and Label Reliability in a Graph-Based
Semi-supervised Classifier [2.4366811507669124]
Local and Global Consistency (LGC)アルゴリズムは、グラフベースの半教師付き半教師付き(GSSL)分類器の1つである。
ラベル付きインスタンスの自己影響を取り除くことは、どのように有用か、そして、それがアウト・ワン・アウトエラーにどのように関係するかについて議論する。
本研究では,ラベルの信頼性と拡散率を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T16:58:52Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z) - Parzen Window Approximation on Riemannian Manifold [5.600982367387833]
グラフモチベーション学習では、ラベルの伝搬は、連結されたデータポイント間のエッジとして表されるデータ親和性に大きく依存する。
不規則なサンプリング効果を考慮して正確なラベル伝播を得る親和性測定法を提案する。
論文 参考訳(メタデータ) (2020-12-29T08:52:31Z) - Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文 参考訳(メタデータ) (2020-12-28T02:37:03Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。