論文の概要: Visual Speech Recognition for Multiple Languages in the Wild
- arxiv url: http://arxiv.org/abs/2202.13084v1
- Date: Sat, 26 Feb 2022 07:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:26:51.521758
- Title: Visual Speech Recognition for Multiple Languages in the Wild
- Title(参考訳): 野生における複数言語に対する視覚音声認識
- Authors: Pingchuan Ma, Stavros Petridis, Maja Pantic
- Abstract要約: より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
- 参考スコア(独自算出の注目度): 64.52593130370757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual speech recognition (VSR) aims to recognise the content of speech based
on the lip movements without relying on the audio stream. Advances in deep
learning and the availability of large audio-visual datasets have led to the
development of much more accurate and robust VSR models than ever before.
However, these advances are usually due to larger training sets rather than the
model design. In this work, we demonstrate that designing better models is
equally important to using larger training sets. We propose the addition of
prediction-based auxiliary tasks to a VSR model and highlight the importance of
hyper-parameter optimisation and appropriate data augmentations. We show that
such model works for different languages and outperforms all previous methods
trained on publicly available datasets by a large margin. It even outperforms
models that were trained on non-publicly available datasets containing up to to
21 times more data. We show furthermore that using additional training data,
even in other languages or with automatically generated transcriptions, results
in further improvement.
- Abstract(参考訳): 視覚音声認識(VSR)は、音声ストリームに頼ることなく、唇の動きに基づいて音声の内容を認識することを目的としている。
ディープラーニングの進歩と大規模なオーディオ視覚データセットが利用可能になったことで、これまで以上に正確で堅牢なVSRモデルの開発につながった。
しかしながら、これらの進歩はモデル設計よりもより大きなトレーニングセットによることが多い。
本研究では,より大きなトレーニングセットを使用する上で,よりよいモデルの設計が等しく重要であることを実証する。
本稿では、VSRモデルに予測ベースの補助タスクを追加し、ハイパーパラメータ最適化と適切なデータ拡張の重要性を強調する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
最大21倍のデータを含む公開されていないデータセットでトレーニングされたモデルよりも優れています。
さらに、他の言語や自動生成された書き起こしであっても、追加のトレーニングデータを使用することで、さらなる改善がもたらされることを示す。
関連論文リスト
- Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。