論文の概要: Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper
- arxiv url: http://arxiv.org/abs/2309.08535v2
- Date: Fri, 12 Jan 2024 07:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:30:03.709564
- Title: Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper
- Title(参考訳): ウィスパーからの自動ラベルを用いた限定ラベル付き言語に対する視覚音声認識
- Authors: Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro
- Abstract要約: 本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
- 参考スコア(独自算出の注目度): 96.43501666278316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a powerful Visual Speech Recognition (VSR) method for
multiple languages, especially for low-resource languages that have a limited
number of labeled data. Different from previous methods that tried to improve
the VSR performance for the target language by using knowledge learned from
other languages, we explore whether we can increase the amount of training data
itself for the different languages without human intervention. To this end, we
employ a Whisper model which can conduct both language identification and
audio-based speech recognition. It serves to filter data of the desired
languages and transcribe labels from the unannotated, multilingual audio-visual
data pool. By comparing the performances of VSR models trained on automatic
labels and the human-annotated labels, we show that we can achieve similar VSR
performance to that of human-annotated labels even without utilizing human
annotations. Through the automated labeling process, we label large-scale
unlabeled multilingual databases, VoxCeleb2 and AVSpeech, producing 1,002 hours
of data for four low VSR resource languages, French, Italian, Spanish, and
Portuguese. With the automatic labels, we achieve new state-of-the-art
performance on mTEDx in four languages, significantly surpassing the previous
methods. The automatic labels are available online:
https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages
- Abstract(参考訳): 本稿では,複数の言語,特にラベル付きデータの少ない低リソース言語に対して,強力な視覚音声認識(vsr)手法を提案する。
他言語から学んだ知識を用いて,対象言語に対するVSR性能を向上しようとする従来の手法とは異なり,人間の介入なしに,異なる言語に対するトレーニングデータ自体の量を増やすことができるかを検討する。
この目的のために,言語識別と音声に基づく音声認識を両立可能なささやきモデルを採用する。
望まれる言語のデータをフィルタリングし、注釈のない多言語音声視覚データプールからラベルを転写する。
自動ラベルと人称ラベルで訓練されたVSRモデルの性能を比較することで、人間のアノテーションを使わずに、人称ラベルと似たVSR性能を実現できることを示す。
自動ラベリングプロセスを通じて、voxceleb2とavspeechという多言語データベースを大規模にラベル付けし、フランス語、イタリア語、スペイン語、ポルトガル語の4つの低vsrリソース言語に対して1,002時間分のデータを生成する。
自動ラベルにより,mtedxにおける最新の性能を4つの言語で達成し,従来の手法を大きく上回っている。
自動ラベルはオンラインで入手できる。 https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages
関連論文リスト
- Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Effectiveness of text to speech pseudo labels for forced alignment and
cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。
すべてのデータとモデルはオープンドメインで利用可能である。
論文 参考訳(メタデータ) (2022-03-31T06:12:52Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Pseudo-Labeling for Massively Multilingual Speech Recognition [34.295967235026936]
擬似ラベルによる半教師付き学習は、最先端のモノリンガル音声認識システムの基礎となっている。
低リソース言語でもうまく機能する単純な擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2021-10-30T03:30:17Z) - Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。
この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文 参考訳(メタデータ) (2021-10-07T15:29:22Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。