論文の概要: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2406.10082v3
- Date: Tue, 19 Nov 2024 21:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:09:28.051411
- Title: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
- Title(参考訳): Whisper-Flamingo: 音声認識と翻訳のためのWhisperへの視覚的特徴の統合
- Authors: Andrew Rouditchenko, Yuan Gong, Samuel Thomas, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass,
- Abstract要約: Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。
本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。
LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
- 参考スコア(独自算出の注目度): 45.29184681700463
- License:
- Abstract: Audio-Visual Speech Recognition (AVSR) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of AVSR models is usually limited to a few thousand hours. In contrast, speech models such as Whisper are trained with hundreds of thousands of hours of data, and thus learn a better speech-to-text decoder. The huge training data difference motivates us to adapt Whisper to handle video inputs. Inspired by Flamingo which injects visual features into language models, we propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our models achieve state-of-the-art ASR WER (0.68%) and AVSR WER (0.76%) on LRS3, and state-of-the-art ASR WER (1.3%) and AVSR WER (1.4%) on LRS2. Audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions. Moreover, Whisper-Flamingo is versatile and conducts all of these tasks using one set of parameters, while prior methods are trained separately on each language.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、唇ベースのビデオを用いて、雑音の性能を改善する。
ビデオは音声よりも入手が難しいため、AVSRモデルのビデオトレーニングデータは一般的に数千時間に制限される。
対照的に、Whisperのような音声モデルは数十万時間のデータで訓練されており、より良い音声からテキストへのデコーダを学ぶことができる。
巨大なトレーニングデータの違いは、Whisperをビデオ入力に適応させる動機となります。
言語モデルに視覚的特徴を注入するFlamingoにヒントを得たWhisper-Flamingoを提案する。
LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
音声ヴィジュアルなWhisper-Flamingoは、音声のみのWhisperよりも、雑音の多い6言語に対する英語の音声認識とEn-X翻訳が優れている。
さらに、Whisper-Flamingoは汎用的で、1組のパラメータを使ってこれらのタスクを全て実行し、以前のメソッドは各言語で個別に訓練される。
関連論文リスト
- Reading Miscue Detection in Primary School through Automatic Speech Recognition [10.137389745562512]
本研究は,オランダ語母語話者の音声認識において,SOTA(State-of-the-art)事前学習モデルの有効性について検討した。
We found that Hubert Large finetuned on Dutch speech achieves SOTA phoneme-level child speech Recognition。
Wav2Vec2 Largeは最大リコール率0.83、Whisperは0.52、F1スコア0.52である。
論文 参考訳(メタデータ) (2024-06-11T08:41:21Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。