論文の概要: Contrastive Siamese Network for Semi-supervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.14054v1
- Date: Fri, 27 May 2022 15:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 19:44:44.773981
- Title: Contrastive Siamese Network for Semi-supervised Speech Recognition
- Title(参考訳): 半教師付き音声認識のためのコントラストシアームネットワーク
- Authors: Soheil Khorram, Jaeyoung Kim, Anshuman Tripathi, Han Lu, Qian Zhang,
Hasim Sak
- Abstract要約: c-siamese(c-siam)ネットワークは、音声認識においてラベルのない音響データを活用するためのアーキテクチャである。
c-siamは、2つの同一トランスフォーマーエンコーダの出力を一致させて音声から高レベル言語情報を抽出する最初のネットワークである。
- 参考スコア(独自算出の注目度): 18.47498325925323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces contrastive siamese (c-siam) network, an architecture
for leveraging unlabeled acoustic data in speech recognition. c-siam is the
first network that extracts high-level linguistic information from speech by
matching outputs of two identical transformer encoders. It contains augmented
and target branches which are trained by: (1) masking inputs and matching
outputs with a contrastive loss, (2) incorporating a stop gradient operation on
the target branch, (3) using an extra learnable transformation on the augmented
branch, (4) introducing new temporal augment functions to prevent the shortcut
learning problem. We use the Libri-light 60k unsupervised data and the
LibriSpeech 100hrs/960hrs supervised data to compare c-siam and other
best-performing systems. Our experiments show that c-siam provides 20% relative
word error rate improvement over wav2vec baselines. A c-siam network with 450M
parameters achieves competitive results compared to the state-of-the-art
networks with 600M parameters.
- Abstract(参考訳): 本稿では,音声認識におけるラベルなし音響データを活用するアーキテクチャである,コントラスト型シアムネットワークを提案する。
c-siamは、2つの同一トランスフォーマーエンコーダの出力を一致させて音声から高レベル言語情報を抽出する最初のネットワークである。
1) 入力のマスキングと出力の整合を対照的な損失で行うこと、(2) 目標ブランチに停止勾配演算を組み込むこと、(3) 拡張ブランチに余分に学習可能な変換を行うこと、(4) ショートカット学習問題を防止するために新しい時間拡張関数を導入すること、を含む。
我々は、Libri-light 60kの教師なしデータと、LibriSpeech 100hrs/960hrsの教師付きデータを用いて、c-siamや他の最高のパフォーマンスシステムを比較する。
実験の結果、c-siamはwav2vecベースラインに対して20%の単語誤り率改善をもたらすことがわかった。
450Mパラメータのc-siamネットワークは、600Mパラメータの最先端ネットワークと比較して、競合的な結果が得られる。
関連論文リスト
- Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Unsupervised feature learning for speech using correspondence and
Siamese networks [24.22616495324351]
フレームレベルの音響特徴学習における最近の2つの手法を比較した。
どちらの方法も、教師なしの項発見は、同じ未知の型の単語のペアを見つけるために用いられる。
対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。
これらの特徴抽出器を、同じ弱い監督ペアを用いて、同一の識別タスクで初めて比較する。
論文 参考訳(メタデータ) (2020-03-28T14:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。