Fugu-MT 論文翻訳(概要): Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition

論文の概要: Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition

arxiv url: http://arxiv.org/abs/2306.17792v1
Date: Fri, 30 Jun 2023 16:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 11:47:59.932018
Title: Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition
Title（参考訳）: 低リソース言語用事前学習音声モデルの側方抑制による性能向上に向けて
Authors: Andrei-Marius Avram, R\u{a}zvan-Alexandru Sm\u{a}du, Vasile P\u{a}i\c{s}, Dumitru-Clementin Cercel, Radu Ion, and Dan Tufi\c{s}
Abstract要約: Wav2Vecモデルは、最先端の結果を得るために必要となるデータを減らすために導入された。ルーマニア語における実験では, 側方抑制層を用いた単語誤り率(WER)が平均12.5%向上した。さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。
参考スコア（独自算出の注目度）: 0.11726720776908521
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rise of bidirectional encoder representations from Transformer models in natural language processing, the speech community has adopted some of their development methodologies. Therefore, the Wav2Vec models were introduced to reduce the data required to obtain state-of-the-art results. This work leverages this knowledge and improves the performance of the pre-trained speech models by simply replacing the fine-tuning dense layer with a lateral inhibition layer inspired by the biological process. Our experiments on Romanian, a low-resource language, show an average improvement of 12.5% word error rate (WER) using the lateral inhibition layer. In addition, we obtain state-of-the-art results on both the Romanian Speech Corpus and the Robin Technical Acquisition Corpus with 1.78% WER and 29.64% WER, respectively.
Abstract（参考訳）: 自然言語処理におけるトランスフォーマモデルからの双方向エンコーダ表現の台頭に伴い、音声コミュニティはそれらの開発手法のいくつかを採用した。そのため、Wav2Vecモデルは最先端の結果を得るために必要となるデータを減らすために導入された。この研究は、この知識を生かして、生物過程に触発された、微調整された密集層を側面抑制層に置き換えることで、事前学習された音声モデルの性能を向上させる。低リソース言語であるルーマニアにおける実験では、側方抑制層を用いて平均12.5%の単語誤り率(wer)が向上した。さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。

関連論文リスト

Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla [0.0]
本研究では,2つの最先端自動音声認識(ASR)モデル,OpenAIのWhisper(Small & Large-V2)とFacebookのWav2Vec-BERT(Bangla)の性能について検討した。
論文参考訳（メタデータ） (2025-07-02T17:44:54Z)
Efficient Speech Translation through Model Compression and Knowledge Distillation [0.0]
本稿では,音声翻訳のための大規模音声モデルの効率的な展開という課題に対処する。我々は,4ビット量子化(QLoRA)による低ランク適応,知識蒸留に基づく反復層プルーニングを用いる。筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
論文参考訳（メタデータ） (2025-05-26T17:17:08Z)
Improving noisy student training for low-resource languages in End-to-End ASR using CycleGAN and inter-domain losses [28.74405969209494]
雑音の多い学生訓練を用いた半教師付きエンド・ツー・エンド音声認識システムの訓練により,性能が大幅に向上した。本稿では,半教師付きエンド・ツー・エンド音声認識の極端な事例として,ペア音声,ラベルなし音声,豊富な外部テキストが存在することを考察する。
論文参考訳（メタデータ） (2024-07-26T10:57:06Z)
CTC-based Non-autoregressive Textless Speech-to-Speech Translation [38.99922762754443]
音声から音声への直接翻訳(S2ST)は、優れた翻訳品質を達成しているが、しばしば遅い復号化の課題に直面している。近年、非自己回帰モデル(NAR)にデコーディングを高速化する研究もあるが、翻訳品質は一般的に自己回帰モデルに大きく遅れている。本稿では,S2STにおけるCTCに基づくNARモデルの性能について検討する。
論文参考訳（メタデータ） (2024-06-11T15:00:33Z)
Diffusion-based speech enhancement with a weighted generative-supervised learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:35Z)
BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文参考訳（メタデータ） (2023-07-01T15:10:01Z)
DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-11-28T03:25:49Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-04-08T04:31:58Z)
Understanding and Improving Lexical Choice in Non-Autoregressive Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文参考訳（メタデータ） (2020-12-29T03:18:50Z)
Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文参考訳（メタデータ） (2020-01-23T17:49:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。