論文の概要: Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge
- arxiv url: http://arxiv.org/abs/2307.11778v1
- Date: Thu, 20 Jul 2023 00:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 19:46:00.986621
- Title: Transsion TSUP's speech recognition system for ASRU 2023 MADASR
Challenge
- Title(参考訳): ASRU 2023 MADASR ChallengeにおけるTranssion TSUPの音声認識システム
- Authors: Xiaoxiao Li, Gaosheng Zhang, An Zhu, Weiyong Li, Shuming Fang, Xiaoyue
Yang, Jianchao Zhu
- Abstract要約: このシステムは、低リソースのインドの言語にASRモデルを適用することに焦点を当てている。
提案手法は, ベンガル語で24.17%, 24.43%, 15.97%, 15.97%, WERで19.61%, 19.54%, 15.48%, 15.48%の単語誤り率を達成した。
- 参考スコア(独自算出の注目度): 11.263392524468625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a speech recognition system developed by the Transsion
Speech Understanding Processing Team (TSUP) for the ASRU 2023 MADASR Challenge.
The system focuses on adapting ASR models for low-resource Indian languages and
covers all four tracks of the challenge. For tracks 1 and 2, the acoustic model
utilized a squeezeformer encoder and bidirectional transformer decoder with
joint CTC-Attention training loss. Additionally, an external KenLM language
model was used during TLG beam search decoding. For tracks 3 and 4, pretrained
IndicWhisper models were employed and finetuned on both the challenge dataset
and publicly available datasets. The whisper beam search decoding was also
modified to support an external KenLM language model, which enabled better
utilization of the additional text provided by the challenge. The proposed
method achieved word error rates (WER) of 24.17%, 24.43%, 15.97%, and 15.97%
for Bengali language in the four tracks, and WER of 19.61%, 19.54%, 15.48%, and
15.48% for Bhojpuri language in the four tracks. These results demonstrate the
effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,asru 2023 madasrチャレンジのためにtranssion speech understanding processing team (tsup) が開発した音声認識システムを提案する。
このシステムは、低リソースインド言語へのasrモデルの適用にフォーカスしており、チャレンジの全4トラックをカバーしている。
トラック1と2では、音響モデルはスクイーズフォーマエンコーダと、ジョイントctcアテンション訓練損失を有する双方向トランスデコーダを利用した。
さらに、外部KenLM言語モデルがTLGビームサーチデコーディングに使用された。
トラック3と4では、事前訓練されたindicwhisperモデルが採用され、チャレンジデータセットと公開データセットの両方で微調整された。
ウィスパービームサーチデコーディングは、外部のKenLM言語モデルをサポートするように修正され、チャレンジによって提供される追加のテキストをより活用できるようになった。
提案手法は,4トラックで24.17%,24.43%,15.97%,15.97%,ベンガル語で15.97%,4トラックで19.61%,19.54%,15.48%,15.48%の単語誤り率(wer)を達成した。
これらの結果は,提案手法の有効性を示す。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech
Systems for the MADASR 2023 Challenge [2.018088271426157]
本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、訓練された音声とテキストデータに制限がある方言に富んだインドの言語の自動音声認識に焦点を当てている。
TalTechは、提供されたトレーニングデータのみの使用を可能にするトラック1と、追加のオーディオデータの使用を可能にするトラック3の2つのトラックに参加した。
論文 参考訳(メタデータ) (2023-10-26T14:57:08Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。