論文の概要: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2406.10082v2
- Date: Thu, 07 Nov 2024 22:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:06.872127
- Title: Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation
- Title(参考訳): Whisper-Flamingo: 音声認識と翻訳のためのWhisperへの視覚的特徴の統合
- Authors: Andrew Rouditchenko, Yuan Gong, Samuel Thomas, Leonid Karlinsky, Hilde Kuehne, Rogerio Feris, James Glass,
- Abstract要約: Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。
本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。
LRS3 上で最先端の ASR WER (0.68%) と AVSR WER (0.76%) を達成する。
- 参考スコア(独自算出の注目度): 45.29184681700463
- License:
- Abstract: Audio-Visual Speech Recognition (AVSR) uses lip-based video to improve performance in noise. Since videos are harder to obtain than audio, the video training data of AVSR models is usually limited to a few thousand hours. In contrast, speech models such as Whisper are trained with hundreds of thousands of hours of data, and thus learn a better speech-to-text decoder. The huge training data difference motivates us to adapt Whisper to handle video inputs. Inspired by Flamingo which injects visual features into language models, we propose Whisper-Flamingo which integrates visual features into the Whisper speech recognition and translation model with gated cross attention. Our models achieve state-of-the-art ASR WER (0.68%) and AVSR WER (0.76%) on LRS3. Audio-visual Whisper-Flamingo outperforms audio-only Whisper on English speech recognition and En-X translation for 6 languages in noisy conditions. Moreover, Whisper-Flamingo is versatile and conducts all of these tasks using one set of parameters, while prior methods are trained separately on each language.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、唇ベースのビデオを用いて、雑音の性能を改善する。
ビデオは音声よりも入手が難しいため、AVSRモデルのビデオトレーニングデータは一般的に数千時間に制限される。
対照的に、Whisperのような音声モデルは数十万時間のデータで訓練されており、より良い音声からテキストへのデコーダを学ぶことができる。
巨大なトレーニングデータの違いは、Whisperをビデオ入力に適応させる動機となります。
言語モデルに視覚的特徴を注入するFlamingoにヒントを得たWhisper-Flamingoを提案する。
LRS3 上で最先端の ASR WER (0.68%) と AVSR WER (0.76%) を達成する。
音声ヴィジュアルなWhisper-Flamingoは、音声のみのWhisperよりも、雑音の多い6言語に対する英語の音声認識とEn-X翻訳が優れている。
さらに、Whisper-Flamingoは汎用的で、1組のパラメータを使ってこれらのタスクを全て実行し、以前のメソッドは各言語で個別に訓練される。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Mi-Go: Test Framework which uses YouTube as Data Source for Evaluating
Speech Recognition Models like OpenAI's Whisper [0.20718016474717196]
Mi-Goは汎用音声認識機械学習モデルの性能評価を目的とした新しいテストフレームワークである。
このフレームワークは、YouTubeをリッチで継続的に更新されたデータソースとして活用し、複数の言語、アクセント、方言、話し方、オーディオ品質レベルを考慮に入れている。
論文 参考訳(メタデータ) (2023-09-01T08:31:35Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。