論文の概要: Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech
Systems for the MADASR 2023 Challenge
- arxiv url: http://arxiv.org/abs/2310.17448v1
- Date: Thu, 26 Oct 2023 14:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:49:08.006778
- Title: Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech
Systems for the MADASR 2023 Challenge
- Title(参考訳): 低リソースasrのための方言適応とデータ拡張: taltech systems for the madasr 2023 challenge
- Authors: Tanel Alum\"ae, Jiaming Kong, Daniil Robnikov
- Abstract要約: 本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、訓練された音声とテキストデータに制限がある方言に富んだインドの言語の自動音声認識に焦点を当てている。
TalTechは、提供されたトレーニングデータのみの使用を可能にするトラック1と、追加のオーディオデータの使用を可能にするトラック3の2つのトラックに参加した。
- 参考スコア(独自算出の注目度): 2.018088271426157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes Tallinn University of Technology (TalTech) systems
developed for the ASRU MADASR 2023 Challenge. The challenge focuses on
automatic speech recognition of dialect-rich Indian languages with limited
training audio and text data. TalTech participated in two tracks of the
challenge: Track 1 that allowed using only the provided training data and Track
3 which allowed using additional audio data. In both tracks, we relied on
wav2vec2.0 models. Our methodology diverges from the traditional procedure of
finetuning pretrained wav2vec2.0 models in two key points: firstly, through the
implementation of the aligned data augmentation technique to enhance the
linguistic diversity of the training data, and secondly, via the application of
deep prefix tuning for dialect adaptation of wav2vec2.0 models. In both tracks,
our approach yielded significant improvements over the provided baselines,
achieving the lowest word error rates across all participating teams.
- Abstract(参考訳): 本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、限られた訓練音声とテキストデータを持つ方言豊富なインドの言語の自動音声認識に焦点を当てている。
taltechは、提供されるトレーニングデータのみを使用するトラック1と、追加のオーディオデータを使用するトラック3の2つのトラックに参加した。
どちらのトラックもwav2vec2.0モデルに依存していました。
提案手法は,事前学習したwav2vec2.0モデルを微調整する従来の手法から,トレーニングデータの言語的多様性を高めるためのアライメントデータ拡張手法の実装と,wav2vec2.0モデルの方言適応のためのディーププレフィックスチューニングの適用の2つの重要な点に分岐する。
どちらのトラックでも、私たちのアプローチは提供されたベースラインを大きく改善し、参加チーム全体で最も低い単語エラー率を達成しました。
関連論文リスト
- TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文 参考訳(メタデータ) (2024-09-16T05:13:34Z) - Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge [11.263392524468625]
このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
論文 参考訳(メタデータ) (2023-07-20T00:55:01Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource
Speech Translation Tasks [8.651248939672769]
本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。
ASRの大規模微調整wav2vec 2.0モデルを利用するカスケードモデルと比較した。
この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのSTファインチューニングに有効であることが示唆された。
論文 参考訳(メタデータ) (2022-05-04T10:36:57Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。