論文の概要: Multi-style Training for South African Call Centre Audio
- arxiv url: http://arxiv.org/abs/2202.07219v1
- Date: Tue, 15 Feb 2022 06:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 16:04:24.593981
- Title: Multi-style Training for South African Call Centre Audio
- Title(参考訳): 南アフリカコールセンターオーディオのためのマルチスタイルトレーニング
- Authors: Walter Heymans, Marelie H. Davel, Charl van Heerden
- Abstract要約: マルチスタイルトレーニング(MTR)は、テストデータのより一般的なようにトレーニングデータを変換しようとする。
テスト条件がトレーニング条件と異なる場合,MTRスタイルの違いがシステム性能に与える影響について検討する。
制御環境は LibriSpeech コーパスを用いて作成され, 最終システム性能に対する異なる MTR スタイルの影響を分離する。
- 参考スコア(独自算出の注目度): 1.495380389108477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mismatched data is a challenging problem for automatic speech recognition
(ASR) systems. One of the most common techniques used to address mismatched
data is multi-style training (MTR), a form of data augmentation that attempts
to transform the training data to be more representative of the testing data;
and to learn robust representations applicable to different conditions. This
task can be very challenging if the test conditions are unknown. We explore the
impact of different MTR styles on system performance when testing conditions
are different from training conditions in the context of deep neural network
hidden Markov model (DNN-HMM) ASR systems. A controlled environment is created
using the LibriSpeech corpus, where we isolate the effect of different MTR
styles on final system performance. We evaluate our findings on a South African
call centre dataset that contains noisy, WAV49-encoded audio.
- Abstract(参考訳): ミスマッチしたデータは自動音声認識(ASR)システムでは難しい問題である。
ミスマッチデータに対処する最も一般的なテクニックの1つは、トレーニングデータをテストデータのより代表的なものとして変換し、異なる条件に適用可能な堅牢な表現を学ぶための、データ拡張の一形態であるマルチスタイルトレーニング(mtr)である。
このタスクは、テスト条件が不明な場合、非常に難しい。
深層ニューラルネットワーク隠れマルコフモデル (DNN-HMM) ASR システムにおいて,テスト条件が訓練条件と異なる場合のシステム性能に対する異なる MTR スタイルの影響について検討する。
制御環境は LibriSpeech コーパスを用いて作成され, 最終システム性能に対する異なるMTRスタイルの影響を分離する。
本研究は,WAV49符号化音声を含む南アフリカのコールセンターデータセットについて検討した。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z) - Training Speech Enhancement Systems with Noisy Speech Datasets [7.157870452667369]
本稿では,雑音の多い音声データに基づいてSEシステムの訓練を行うための2つの改良を提案する。
まず、雑音の多い音声のターゲットに対して頑健な損失関数のいくつかの修正を提案する。
従来のシステムと比較して,ロバストな損失関数を用いることでPSSQが最大0.19向上することを示す。
論文 参考訳(メタデータ) (2021-05-26T03:32:39Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。