論文の概要: Towards Improving the Performance of Pre-Trained Speech Models for
Low-Resource Languages Through Lateral Inhibition
- arxiv url: http://arxiv.org/abs/2306.17792v1
- Date: Fri, 30 Jun 2023 16:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:47:59.932018
- Title: Towards Improving the Performance of Pre-Trained Speech Models for
Low-Resource Languages Through Lateral Inhibition
- Title(参考訳): 低リソース言語用事前学習音声モデルの側方抑制による性能向上に向けて
- Authors: Andrei-Marius Avram, R\u{a}zvan-Alexandru Sm\u{a}du, Vasile
P\u{a}i\c{s}, Dumitru-Clementin Cercel, Radu Ion, and Dan Tufi\c{s}
- Abstract要約: Wav2Vecモデルは、最先端の結果を得るために必要となるデータを減らすために導入された。
ルーマニア語における実験では, 側方抑制層を用いた単語誤り率(WER)が平均12.5%向上した。
さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。
- 参考スコア(独自算出の注目度): 0.11726720776908521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of bidirectional encoder representations from Transformer
models in natural language processing, the speech community has adopted some of
their development methodologies. Therefore, the Wav2Vec models were introduced
to reduce the data required to obtain state-of-the-art results. This work
leverages this knowledge and improves the performance of the pre-trained speech
models by simply replacing the fine-tuning dense layer with a lateral
inhibition layer inspired by the biological process. Our experiments on
Romanian, a low-resource language, show an average improvement of 12.5% word
error rate (WER) using the lateral inhibition layer. In addition, we obtain
state-of-the-art results on both the Romanian Speech Corpus and the Robin
Technical Acquisition Corpus with 1.78% WER and 29.64% WER, respectively.
- Abstract(参考訳): 自然言語処理におけるトランスフォーマモデルからの双方向エンコーダ表現の台頭に伴い、音声コミュニティはそれらの開発手法のいくつかを採用した。
そのため、Wav2Vecモデルは最先端の結果を得るために必要となるデータを減らすために導入された。
この研究は、この知識を生かして、生物過程に触発された、微調整された密集層を側面抑制層に置き換えることで、事前学習された音声モデルの性能を向上させる。
低リソース言語であるルーマニアにおける実験では、側方抑制層を用いて平均12.5%の単語誤り率(wer)が向上した。
さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。
関連論文リスト
- Low-rank Adaptation of Large Language Model Rescoring for
Parameter-Efficient Speech Recognition [32.24656612803592]
音声認識出力再構成のための低ランク適応(LoRA)に基づくニューラルネットワークモデリングシステムを提案する。
本稿では,低ランク分解に基づく手法を提案し,事前訓練されたパラメータのごく一部だけを用いて,リスコリングBERTモデルをトレーニングし,新しい領域に適応させる。
提案した低ランク適応型Rescore-BERT(LoRB)アーキテクチャは、LibriSpeechおよび内部データセット上で5.4から3.6の因子でトレーニング時間を短縮した上で評価される。
論文 参考訳(メタデータ) (2023-09-26T19:41:34Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。