論文の概要: StutterFuse: Mitigating Modality Collapse in Stuttering Detection with Jaccard-Weighted Metric Learning and Gated Fusion
- arxiv url: http://arxiv.org/abs/2512.13632v1
- Date: Mon, 15 Dec 2025 18:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.800768
- Title: StutterFuse: Mitigating Modality Collapse in Stuttering Detection with Jaccard-Weighted Metric Learning and Gated Fusion
- Title(参考訳): StutterFuse: Jaccard-Weighted Metric LearningとGated Fusionによるスタッタ検出におけるモダリティ崩壊の軽減
- Authors: Guransh Singh, Md Shah Fahad,
- Abstract要約: 散乱検出は、拡散が重なると故障する。
既存のパラメトリックモデルは、複雑で同時的な分散を区別するのに苦労する。
マルチラベル検出のための最初のレトリーバル拡張一般化(RAC)であるStutterFuseを紹介する。
- 参考スコア(独自算出の注目度): 0.40105987447353786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stuttering detection breaks down when disfluencies overlap. Existing parametric models struggle to distinguish complex, simultaneous disfluencies (e.g., a 'block' with a 'prolongation') due to the scarcity of these specific combinations in training data. While Retrieval-Augmented Generation (RAG) has revolutionized NLP by grounding models in external knowledge, this paradigm remains unexplored in pathological speech processing. To bridge this gap, we introduce StutterFuse, the first Retrieval-Augmented Classifier (RAC) for multi-label stuttering detection. By conditioning a Conformer encoder on a non-parametric memory bank of clinical examples, we allow the model to classify by reference rather than memorization. We further identify and solve "Modality Collapse", an "Echo Chamber" effect where naive retrieval boosts recall but degrades precision. We mitigate this using: (1) SetCon, a Jaccard-Weighted Metric Learning objective that optimizes for multi-label set similarity, and (2) a Gated Mixture-of-Experts fusion strategy that dynamically arbitrates between acoustic evidence and retrieved context. On the SEP-28k dataset, StutterFuse achieves a weighted F1-score of 0.65, outperforming strong baselines and demonstrating remarkable zero-shot cross-lingual generalization.
- Abstract(参考訳): 散乱検出は、拡散が重なると故障する。
既存のパラメトリックモデルは、トレーニングデータにこれらの特定の組み合わせが不足しているため、複雑な同時分散(例えば、"拡張"を持つブロック)を区別するのに苦労する。
Retrieval-Augmented Generation (RAG) は、外部知識のモデルを構築することによってNLPに革命をもたらしたが、このパラダイムはいまだに病的音声処理において探索されていない。
このギャップを埋めるために、マルチラベルスタブリング検出のための最初のRetrieval-Augmented Classifier(RAC)であるStutterFuseを導入する。
臨床例のノンパラメトリックメモリバンクにコンフォーマーエンコーダを条件付けすることにより、記憶ではなく参照によって分類できる。
さらに、「エコーチャンバー」効果である「モダリティ・コラプス(Modality Collapse)」を同定し、解決する。
本研究では,(1)マルチラベル集合の類似性を最適化するジャカード重み付きメトリック学習目標であるSetCon,(2)音響的証拠と検索された文脈を動的に調停するGated Mixture-of-Experts融合戦略を用いて,これを緩和する。
SEP-28kデータセット上で、StutterFuseは重み付きF1スコアの0.65を達成し、強いベースラインを上回り、顕著なゼロショットのクロスランガルな一般化を示す。
関連論文リスト
- Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identification [24.24793934981947]
擬似ラベルノイズ(PLN)を考慮した新しい学習パラダイムを提案する。
PLNはノイズオーバーフィット、エラー蓄積、ノイズの多いクラスタ対応の3つの主要な課題によって特徴づけられる。
UVI-ReIDのためのロバスト・デュナリティ学習フレームワーク(RoDE)を提案する。
論文 参考訳(メタデータ) (2025-05-05T10:36:52Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。