論文の概要: Whilter: A Whisper-based Data Filter for "In-the-Wild" Speech Corpora Using Utterance-level Multi-Task Classification
- arxiv url: http://arxiv.org/abs/2507.21642v1
- Date: Tue, 29 Jul 2025 09:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.971489
- Title: Whilter: A Whisper-based Data Filter for "In-the-Wild" Speech Corpora Using Utterance-level Multi-Task Classification
- Title(参考訳): Whilter:Utterance-level Multi-Task Classificationを用いたWhisper-based Data Filter for "In-the-Wild"音声コーパス
- Authors: William Ravenscroft, George Close, Kit Bower-Morris, Jamie Stacey, Dmitry Sityaev, Kris Y. Hong,
- Abstract要約: In-the-wild音声データセットは、複数の話者、非ターゲット言語、音楽などの望ましくない特徴を含むことが多い。
Whilter モデルはこれらの望ましくないサンプルを識別する解法として提案されている。
WhilterはマルチタスクF1スコアを85%以上、エラー率は6.5%から7.8%と5つのサブタスクのうち3つで達成している。
- 参考スコア(独自算出の注目度): 3.650448386461648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale in-the-wild speech datasets have become more prevalent in recent years due to increased interest in models that can learn useful features from unlabelled data for tasks such as speech recognition or synthesis. These datasets often contain undesirable features, such as multiple speakers, non-target languages, and music, which may impact model learning. The Whilter model is proposed as a multitask solution to identify these undesirable samples. Whilter uses a Whisper encoder with an attention-based classifier to solve five diverse classification problems at once. In addition, an annotated dataset is published for a subset of two popular in-the-wild corpora. Whilter achieves F1 scores above 85% and equal error rates of 6.5% to 7.8% for three of five subtasks, outperforming a state-of-the-art BEATs classifier on speech-specific classes, with a notable decrease in processing time compared to a combination of single-task alternatives.
- Abstract(参考訳): 近年,音声認識や合成などのタスクにおいて,非ラベル付きデータから有用な特徴を学習できるモデルへの関心が高まっているため,大規模帯域内音声認識データセットが普及している。
これらのデータセットには、モデル学習に影響を与える可能性のある複数の話者、非ターゲット言語、音楽など、望ましくない特徴が含まれていることが多い。
Whilterモデルは、これらの望ましくないサンプルを特定するためのマルチタスクソリューションとして提案されている。
Whilterは、注意に基づく分類器を備えたWhisperエンコーダを使用して、同時に5つの異なる分類問題を解く。
さらに、注釈付きデータセットが、人気の高い2つのIn-the-wildコーパスのサブセットとして公開されている。
Whilterは5つのサブタスクのうち、F1スコアが85%以上、エラー率は6.5%から7.8%で、言語固有のクラスでは最先端のBEATs分類器よりも優れており、シングルタスクの代替品と比べ処理時間が顕著に減少している。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Environmental sound analysis with mixup based multitask learning and
cross-task fusion [0.12891210250935145]
音響シーン分類と音響イベント分類は 密接に関連している2つの課題です
本書では,上記の課題に対して二段階法を提案する。
提案手法は,音響シーンと音響イベント分類の相補的特徴を確認した。
論文 参考訳(メタデータ) (2021-03-30T05:11:53Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - LSTM and GPT-2 Synthetic Speech Transfer Learning for Speaker
Recognition to Overcome Data Scarcity [3.1428836133120543]
音声認識問題において、データの不足は、学習と分類のために大量のデータを提供する人間の意志によってしばしば問題となる。
本研究では、7人の被験者から5つのハーバードの文章を抽出し、そのMFCC属性について考察する。
文字レベルLSTMとOpenAIの注意に基づくGPT-2モデルを用いて、合成MFCCは、オブジェクト単位のデータから学習することによって生成される。
論文 参考訳(メタデータ) (2020-07-01T13:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。