論文の概要: Towards Improving the Performance of Pre-Trained Speech Models for
Low-Resource Languages Through Lateral Inhibition
- arxiv url: http://arxiv.org/abs/2306.17792v1
- Date: Fri, 30 Jun 2023 16:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:47:59.932018
- Title: Towards Improving the Performance of Pre-Trained Speech Models for
Low-Resource Languages Through Lateral Inhibition
- Title(参考訳): 低リソース言語用事前学習音声モデルの側方抑制による性能向上に向けて
- Authors: Andrei-Marius Avram, R\u{a}zvan-Alexandru Sm\u{a}du, Vasile
P\u{a}i\c{s}, Dumitru-Clementin Cercel, Radu Ion, and Dan Tufi\c{s}
- Abstract要約: Wav2Vecモデルは、最先端の結果を得るために必要となるデータを減らすために導入された。
ルーマニア語における実験では, 側方抑制層を用いた単語誤り率(WER)が平均12.5%向上した。
さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。
- 参考スコア(独自算出の注目度): 0.11726720776908521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of bidirectional encoder representations from Transformer
models in natural language processing, the speech community has adopted some of
their development methodologies. Therefore, the Wav2Vec models were introduced
to reduce the data required to obtain state-of-the-art results. This work
leverages this knowledge and improves the performance of the pre-trained speech
models by simply replacing the fine-tuning dense layer with a lateral
inhibition layer inspired by the biological process. Our experiments on
Romanian, a low-resource language, show an average improvement of 12.5% word
error rate (WER) using the lateral inhibition layer. In addition, we obtain
state-of-the-art results on both the Romanian Speech Corpus and the Robin
Technical Acquisition Corpus with 1.78% WER and 29.64% WER, respectively.
- Abstract(参考訳): 自然言語処理におけるトランスフォーマモデルからの双方向エンコーダ表現の台頭に伴い、音声コミュニティはそれらの開発手法のいくつかを採用した。
そのため、Wav2Vecモデルは最先端の結果を得るために必要となるデータを減らすために導入された。
この研究は、この知識を生かして、生物過程に触発された、微調整された密集層を側面抑制層に置き換えることで、事前学習された音声モデルの性能を向上させる。
低リソース言語であるルーマニアにおける実験では、側方抑制層を用いて平均12.5%の単語誤り率(wer)が向上した。
さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。
関連論文リスト
- Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses [28.74405969209494]
雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。
本稿では,半教師付きエンド・ツー・エンド音声認識の極端な事例として,ペア音声,ラベルなし音声,豊富な外部テキストが存在することを考察する。
論文 参考訳(メタデータ) (2024-07-26T10:57:06Z) - CTC-based Non-autoregressive Textless Speech-to-Speech Translation [38.99922762754443]
音声から音声への直接翻訳(S2ST)は、優れた翻訳品質を達成しているが、しばしば遅い復号化の課題に直面している。
近年、非自己回帰モデル(NAR)にデコーディングを高速化する研究もあるが、翻訳品質は一般的に自己回帰モデルに大きく遅れている。
本稿では,S2STにおけるCTCに基づくNARモデルの性能について検討する。
論文 参考訳(メタデータ) (2024-06-11T15:00:33Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。