論文の概要: A Stutter Seldom Comes Alone -- Cross-Corpus Stuttering Detection as a
Multi-label Problem
- arxiv url: http://arxiv.org/abs/2305.19255v1
- Date: Tue, 30 May 2023 17:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:38:26.617823
- Title: A Stutter Seldom Comes Alone -- Cross-Corpus Stuttering Detection as a
Multi-label Problem
- Title(参考訳): 滅多に来ない, マルチラベル問題としてのクロスコーパス・スタッタ検出
- Authors: Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian H\"onig,
Tobias Bocklet, Elmar N\"oth, Korbinian Riedhammer
- Abstract要約: 本稿では,多言語およびクロスコーパスの終端スタブリング検出を多ラベル問題として検討する。
注意に基づく分類とマルチタスク学習を併用したwav2vec 2.0システムの評価を行った。
実験結果と誤差解析により,クロスコーパスおよび多言語データに基づいて学習したマルチラベルスタブリング検出システムが競合する結果を得た。
- 参考スコア(独自算出の注目度): 6.002036542374613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most stuttering detection and classification research has viewed stuttering
as a multi-class classification problem or a binary detection task for each
dysfluency type; however, this does not match the nature of stuttering, in
which one dysfluency seldom comes alone but rather co-occurs with others. This
paper explores multi-language and cross-corpus end-to-end stuttering detection
as a multi-label problem using a modified wav2vec 2.0 system with an
attention-based classification head and multi-task learning. We evaluate the
method using combinations of three datasets containing English and German
stuttered speech, one containing speech modified by fluency shaping. The
experimental results and an error analysis show that multi-label stuttering
detection systems trained on cross-corpus and multi-language data achieve
competitive results but performance on samples with multiple labels stays below
over-all detection results.
- Abstract(参考訳): 多くのスタチング検出・分類研究は、スタチングを多クラス分類問題や、各ディスフルエンシータイプに対するバイナリ検出タスクと見ているが、これはスタチングの性質とは一致せず、単一のディフルエンシーが単独で現れることはほとんどなく、むしろ他と共起している。
本稿では,注意に基づく分類ヘッドとマルチタスク学習を備えた修正wav2vec 2.0システムを用いたマルチラベル問題として,マルチ言語とクロスコーポレートなエンドツーエンドスッタリング検出について検討する。
本手法は,英語とドイツ語の散文を含む3つのデータセットの組み合わせを用いて評価する。
実験結果と誤差解析により,クロスコーパスおよび多言語データに基づいて学習したマルチラベルスタブリング検出システムは競合する結果を得るが,複数のラベルを持つサンプルの性能はオーバーオール検出結果以下であることがわかった。
関連論文リスト
- Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - Powerset multi-class cross entropy loss for neural speaker diarization [0.0]
EENDラインは、フレームワイド多ラベル分類問題として話者ダイアリゼーションに対処し、置換不変のトレーニングを行う。
マルチラベルからパワーセットのマルチクラス分類に切り替えることを提案する。
この定式化がドメインミスマッチに対するパフォーマンスと堅牢性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-19T06:51:43Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。
パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。
提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文 参考訳(メタデータ) (2022-11-16T07:34:20Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning [23.13972240042859]
本稿では,複数の異なる分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。
FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークで構成されている。
合成スタッターを用いたパブリックなLibriSpeechデータセットに基づく分散データセットを提案する。
論文 参考訳(メタデータ) (2020-09-23T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。