論文の概要: On Scaling Contrastive Representations for Low-Resource Speech
Recognition
- arxiv url: http://arxiv.org/abs/2102.00850v1
- Date: Mon, 1 Feb 2021 13:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 09:54:17.085348
- Title: On Scaling Contrastive Representations for Low-Resource Speech
Recognition
- Title(参考訳): 低リソース音声認識のためのコントラスト表現のスケーリングについて
- Authors: Lasse Borgholt, Tycho Max Sylvester Tax, Jakob Drachmann Havtorn, Lars
Maal{\o}e, Christian Igel
- Abstract要約: 計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
- 参考スコア(独自算出の注目度): 12.447872366013224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning through contrastive training have
shown that it is possible to learn a competitive speech recognition system with
as little as 10 minutes of labeled data. However, these systems are
computationally expensive since they require pre-training followed by
fine-tuning in a large parameter space. We explore the performance of such
systems without fine-tuning by training a state-of-the-art speech recognizer on
the fixed representations from the computationally demanding wav2vec 2.0
framework. We find performance to decrease without fine-tuning and, in the
extreme low-resource setting, wav2vec 2.0 is inferior to its predecessor. In
addition, we find that wav2vec 2.0 representations live in a low dimensional
subspace and that decorrelating the features of the representations can
stabilize training of the automatic speech recognizer. Finally, we propose a
bidirectional extension to the original wav2vec framework that consistently
improves performance.
- Abstract(参考訳): コントラスト学習による自己教師型学習の最近の進歩は,ラベル付きデータの10分以内で,競争的音声認識システムを学ぶことができることを示している。
しかし、これらのシステムは事前学習を必要とするため計算コストが高く、さらに大きなパラメータ空間で微調整を行う。
計算要求の高いwav2vec 2.0フレームワークの固定表現に関する最先端の音声認識を訓練することにより、微調整のないシステムの性能を検討する。
パフォーマンスは微調整なしで低下し、極端な低リソース設定では、wav2vec 2.0は前バージョンより劣っている。
また、wav2vec 2.0表現は低次元部分空間に存在し、表現の特徴の相関が自動音声認識器の訓練を安定化させる。
最後に、パフォーマンスを継続的に改善するオリジナルのwav2vecフレームワークの双方向拡張を提案する。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition [78.92428622630861]
wav2vec 2.0は、音声感情認識(SER)に使用できる
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
論文 参考訳(メタデータ) (2021-10-12T19:55:55Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。