論文の概要: The Influence of Dataset Partitioning on Dysfluency Detection Systems
- arxiv url: http://arxiv.org/abs/2206.03400v1
- Date: Tue, 7 Jun 2022 15:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:29:28.701556
- Title: The Influence of Dataset Partitioning on Dysfluency Detection Systems
- Title(参考訳): ディフルエンシ検出システムにおけるデータセット分割の影響
- Authors: Sebastian P. Bayerl, Dominik Wagner, Elmar N\"oth, Tobias Bocklet, and
Korbinian Riedhammer
- Abstract要約: 本稿では,ディフルエンシ検出システムの性能に及ぼすデータ分割と分割戦略の影響について検討する。
我々は,SEP-28kデータセットにおけるStuttering Eventsの非排他的および話者排他的分割を用いて,システムを訓練し,評価する。
- 参考スコア(独自算出の注目度): 6.3598528804420695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper empirically investigates the influence of different data splits
and splitting strategies on the performance of dysfluency detection systems.
For this, we perform experiments using wav2vec 2.0 models with a classification
head as well as support vector machines (SVM) in conjunction with the features
extracted from the wav2vec 2.0 model to detect dysfluencies. We train and
evaluate the systems with different non-speaker-exclusive and speaker-exclusive
splits of the Stuttering Events in Podcasts (SEP-28k) dataset to shed some
light on the variability of results w.r.t. to the partition method used.
Furthermore, we show that the SEP-28k dataset is dominated by only a few
speakers, making it difficult to evaluate. To remedy this problem, we created
SEP-28k-Extended (SEP-28k-E), containing semi-automatically generated speaker
and gender information for the SEP-28k corpus, and suggest different data
splits, each useful for evaluating other aspects of methods for dysfluency
detection.
- Abstract(参考訳): 本稿では, ディフルエンシ検出システムの性能に及ぼすデータ分割と分割戦略の影響を実験的に検討する。
そこで我々は,wav2vec 2.0モデルから抽出した特徴と合わせて,分類ヘッドを備えたwav2vec 2.0モデルとサポートベクタマシン(SVM)を用いた実験を行った。
我々は,ポッドキャスト(sep-28k)データセットにおける発話イベントの非話者排他的および話者排他的分割の異なるシステムを訓練し,評価し,w.r.t.の結果のばらつきを分割法に適用した。
さらに,SEP-28kデータセットは少数の話者で支配されており,評価が困難であることを示す。
この問題を解決するために,sep-28k-extended (sep-28k-e) を開発し,sep-28kコーパスに対して,半自動生成話者と性情報を含む。
関連論文リスト
- Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Using Rater and System Metadata to Explain Variance in the VoiceMOS
Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。
本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文 参考訳(メタデータ) (2022-09-14T00:45:49Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Towards Better Object Detection in Scale Variation with Adaptive Feature
Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。
これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。
クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文 参考訳(メタデータ) (2020-12-06T13:41:20Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。