Fugu-MT 論文翻訳(概要): Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model

論文の概要: Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model

arxiv url: http://arxiv.org/abs/2309.08535v1
Date: Fri, 15 Sep 2023 16:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 13:41:33.761492
Title: Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model
Title（参考訳）: ささやき声モデルからの自動ラベル付き低リソース言語のための視覚音声認識
Authors: Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro
Abstract要約: 本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。言語識別と音声認識の両方が可能なWhisperモデルを用いる。自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
参考スコア（独自算出の注目度）: 96.43501666278316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a powerful Visual Speech Recognition (VSR) method for multiple languages, especially for low-resource languages that have a limited number of labeled data. Different from previous methods that tried to improve the VSR performance for the target language by using knowledge learned from other languages, we explore whether we can increase the amount of training data itself for the different languages without human intervention. To this end, we employ a Whisper model which can conduct both language identification and audio-based speech recognition. It serves to filter data of the desired languages and transcribe labels from the unannotated, multilingual audio-visual data pool. By comparing the performances of VSR models trained on automatic labels and the human-annotated labels, we show that we can achieve similar VSR performance to that of human-annotated labels even without utilizing human annotations. Through the automated labeling process, we label large-scale unlabeled multilingual databases, VoxCeleb2 and AVSpeech, producing 1,002 hours of data for four low VSR resource languages, French, Italian, Spanish, and Portuguese. With the automatic labels, we achieve new state-of-the-art performance on mTEDx in four languages, significantly surpassing the previous methods. The automatic labels are available online: https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages
Abstract（参考訳）: 本稿では,複数の言語,特にラベル付きデータの少ない低リソース言語に対して,強力な視覚音声認識(vsr)手法を提案する。他言語から学んだ知識を用いて,対象言語に対するVSR性能を向上しようとする従来の手法とは異なり,人間の介入なしに,異なる言語に対するトレーニングデータ自体の量を増やすことができるかを検討する。この目的のために,言語識別と音声に基づく音声認識を両立可能なささやきモデルを採用する。望まれる言語のデータをフィルタリングし、注釈のない多言語音声視覚データプールからラベルを転写する。自動ラベルと人称ラベルで訓練されたVSRモデルの性能を比較することで、人間のアノテーションを使わずに、人称ラベルと似たVSR性能を実現できることを示す。自動ラベリングプロセスを通じて、voxceleb2とavspeechという多言語データベースを大規模にラベル付けし、フランス語、イタリア語、スペイン語、ポルトガル語の4つの低vsrリソース言語に対して1,002時間分のデータを生成する。自動ラベルにより,mtedxにおける最新の性能を4つの言語で達成し,従来の手法を大きく上回っている。自動ラベルはオンラインで入手できる。 https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

関連論文リスト

Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [19.403991814044424]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。 LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文参考訳（メタデータ） (2024-12-19T10:39:08Z)
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文参考訳（メタデータ） (2023-08-18T05:19:03Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Effectiveness of text to speech pseudo labels for forced alignment and cross lingual pretrained models for low resource speech recognition [0.0]
本稿では,Maithili,Bhojpuri,Dogriのラベル付きデータ作成手法を提案する。すべてのデータとモデルはオープンドメインで利用可能である。
論文参考訳（メタデータ） (2022-03-31T06:12:52Z)
Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文参考訳（メタデータ） (2022-03-30T18:09:28Z)
Pseudo-Labeling for Massively Multilingual Speech Recognition [34.295967235026936]
擬似ラベルによる半教師付き学習は、最先端のモノリンガル音声認識システムの基礎となっている。低リソース言語でもうまく機能する単純な擬似ラベル方式を提案する。
論文参考訳（メタデータ） (2021-10-30T03:30:17Z)
Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 [7.378368959253632]
モノリンガルなwav2vec-2.0は、いくつかの言語でASR学習者として優れていることを示す。この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、トップラインのマルチリンガルXLSRモデルと同様のパフォーマンスを達成することである。
論文参考訳（メタデータ） (2021-10-07T15:29:22Z)
Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文参考訳（メタデータ） (2020-06-24T19:16:02Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。