論文の概要: Data Augmenting Contrastive Learning of Speech Representations in the
Time Domain
- arxiv url: http://arxiv.org/abs/2007.00991v1
- Date: Thu, 2 Jul 2020 09:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:36:45.345217
- Title: Data Augmenting Contrastive Learning of Speech Representations in the
Time Domain
- Title(参考訳): 時間領域における音声表現のコントラスト学習を増強するデータ
- Authors: Eugene Kharitonov and Morgane Rivi\`ere and Gabriel Synnaeve and Lior
Wolf and Pierre-Emmanuel Mazar\'e and Matthijs Douze and Emmanuel Dupoux
- Abstract要約: 時間領域データ拡張ライブラリであるWavAugmentを紹介します。
また, ピッチ修正, 付加音, 残響の組合せによってCPCの性能が著しく向上することが判明した。
また、時間領域データの増大は、下流の限られた超音素分類タスクを12~15%の確率で改善することを示した。
- 参考スコア(独自算出の注目度): 92.50459322938528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Predictive Coding (CPC), based on predicting future segments of
speech based on past segments is emerging as a powerful algorithm for
representation learning of speech signal. However, it still under-performs
other methods on unsupervised evaluation benchmarks. Here, we introduce
WavAugment, a time-domain data augmentation library and find that applying
augmentation in the past is generally more efficient and yields better
performances than other methods. We find that a combination of pitch
modification, additive noise and reverberation substantially increase the
performance of CPC (relative improvement of 18-22%), beating the reference
Libri-light results with 600 times less data. Using an out-of-domain dataset,
time-domain data augmentation can push CPC to be on par with the state of the
art on the Zero Speech Benchmark 2017. We also show that time-domain data
augmentation consistently improves downstream limited-supervision phoneme
classification tasks by a factor of 12-15% relative.
- Abstract(参考訳): 過去セグメントに基づく音声の将来セグメント予測に基づくコントラスト予測符号化(cpc)が,音声信号の表現学習のための強力なアルゴリズムとして出現している。
しかし、教師なし評価ベンチマークでは、他の手法が低性能である。
ここでは、時間領域データ拡張ライブラリであるwavaugmentを紹介し、過去に拡張を適用する方が一般的に効率的であり、他の方法よりも優れたパフォーマンスをもたらすことを見出します。
その結果, ピッチ修正, 付加雑音, 残響の組合せにより, cpcの性能が大幅に向上し(相対的改善率18-22%), 基準リブリライトの600分の1のデータを上回った。
ドメイン外データセットを使用することで、時間領域データ拡張は、cpcをzero speech benchmark 2017の最先端技術と同等にすることができる。
また,時間領域データ拡張は,ダウンストリームのスーパービジョン音素分類タスクを12~15%の相対的に改善することを示す。
関連論文リスト
- Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Training Strategies for Improved Lip-reading [61.661446956793604]
本研究では,最先端データ拡張手法,時間モデル,その他のトレーニング戦略の性能について検討する。
すべての手法を組み合わせると、分類精度は93.4%となり、現在の最先端技術よりも4.6%向上した。
各種学習手法の誤り解析により, 難解な単語の分類精度を高めることにより, 性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-09-03T09:38:11Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - ImportantAug: a data augmentation agent for speech [10.453223310129408]
本稿では,音声認識モデルのためのトレーニングデータの拡張手法であるPanalyAugを紹介する。
各発話の重要性は、追加するノイズの量を最大化するためにトレーニングされたデータ拡張エージェントによって予測される。
論文 参考訳(メタデータ) (2021-12-14T04:37:04Z) - Improving RNN-T ASR Performance with Date-Time and Location Awareness [6.308539010172309]
文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-11T05:57:30Z) - Improving low-resource ASR performance with untranscribed out-of-domain
data [8.376091455761259]
半教師あり訓練(SST)は、非転写/ラベルなし音声データを活用する一般的な手法である。
Web リソースを用いた会話/電話音声(ターゲットドメイン)の性能向上を図る。
論文 参考訳(メタデータ) (2021-06-02T15:23:34Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。