論文の概要: A Stutter Seldom Comes Alone -- Cross-Corpus Stuttering Detection as a
Multi-label Problem
- arxiv url: http://arxiv.org/abs/2305.19255v1
- Date: Tue, 30 May 2023 17:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:38:26.617823
- Title: A Stutter Seldom Comes Alone -- Cross-Corpus Stuttering Detection as a
Multi-label Problem
- Title(参考訳): 滅多に来ない, マルチラベル問題としてのクロスコーパス・スタッタ検出
- Authors: Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian H\"onig,
Tobias Bocklet, Elmar N\"oth, Korbinian Riedhammer
- Abstract要約: 本稿では,多言語およびクロスコーパスの終端スタブリング検出を多ラベル問題として検討する。
注意に基づく分類とマルチタスク学習を併用したwav2vec 2.0システムの評価を行った。
実験結果と誤差解析により,クロスコーパスおよび多言語データに基づいて学習したマルチラベルスタブリング検出システムが競合する結果を得た。
- 参考スコア(独自算出の注目度): 6.002036542374613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most stuttering detection and classification research has viewed stuttering
as a multi-class classification problem or a binary detection task for each
dysfluency type; however, this does not match the nature of stuttering, in
which one dysfluency seldom comes alone but rather co-occurs with others. This
paper explores multi-language and cross-corpus end-to-end stuttering detection
as a multi-label problem using a modified wav2vec 2.0 system with an
attention-based classification head and multi-task learning. We evaluate the
method using combinations of three datasets containing English and German
stuttered speech, one containing speech modified by fluency shaping. The
experimental results and an error analysis show that multi-label stuttering
detection systems trained on cross-corpus and multi-language data achieve
competitive results but performance on samples with multiple labels stays below
over-all detection results.
- Abstract(参考訳): 多くのスタチング検出・分類研究は、スタチングを多クラス分類問題や、各ディスフルエンシータイプに対するバイナリ検出タスクと見ているが、これはスタチングの性質とは一致せず、単一のディフルエンシーが単独で現れることはほとんどなく、むしろ他と共起している。
本稿では,注意に基づく分類ヘッドとマルチタスク学習を備えた修正wav2vec 2.0システムを用いたマルチラベル問題として,マルチ言語とクロスコーポレートなエンドツーエンドスッタリング検出について検討する。
本手法は,英語とドイツ語の散文を含む3つのデータセットの組み合わせを用いて評価する。
実験結果と誤差解析により,クロスコーパスおよび多言語データに基づいて学習したマルチラベルスタブリング検出システムは競合する結果を得るが,複数のラベルを持つサンプルの性能はオーバーオール検出結果以下であることがわかった。
関連論文リスト
- Leveraging Annotator Disagreement for Text Classification [3.6625157427847963]
テキスト分類では、データセットが複数のアノテータによってアノテートされた場合でも、モデルトレーニングに1つのマジョリティラベルのみを使用するのが一般的である。
本稿では,アノテータの不一致を利用してテキスト分類を行う3つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T06:46:53Z) - Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。
パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。
提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文 参考訳(メタデータ) (2022-11-16T07:34:20Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。