論文の概要: mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2502.01547v1
- Date: Mon, 03 Feb 2025 17:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:07.425031
- Title: mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition
- Title(参考訳): マルチリンガル音声認識のためのmWhisper-Flamingo
- Authors: Andrew Rouditchenko, Saurabhchand Bhati, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass,
- Abstract要約: マルチリンガル音声認識のためのmWhisper-Flamingoを提案する。
事前訓練されたオーディオモデル(Whisper)とビデオモデル(AV-HuBERT)の長所を組み合わせる。
オーディオヴィジュアルのmWhisper-Flamingoは、ノイズの多い条件下で、すべての言語でオーディオのみのWhisperを一貫して上回っている。
- 参考スコア(独自算出の注目度): 30.693551408849192
- License:
- Abstract: Audio-Visual Speech Recognition (AVSR) combines lip-based video with audio and can improve performance in noise, but most methods are trained only on English data. One limitation is the lack of large-scale multilingual video data, which makes it hard hard to train models from scratch. In this work, we propose mWhisper-Flamingo for multilingual AVSR which combines the strengths of a pre-trained audio model (Whisper) and video model (AV-HuBERT). To enable better multi-modal integration and improve the noisy multilingual performance, we introduce decoder modality dropout where the model is trained both on paired audio-visual inputs and separate audio/visual inputs. mWhisper-Flamingo achieves state-of-the-art WER on MuAViC, an AVSR dataset of 9 languages. Audio-visual mWhisper-Flamingo consistently outperforms audio-only Whisper on all languages in noisy conditions.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、リップベースのビデオとオーディオを組み合わせることで、ノイズのパフォーマンスを向上させることができるが、ほとんどの手法は英語のデータに基づいて訓練されている。
ひとつの制限は、大規模な多言語ビデオデータがないことだ。
本研究では,事前学習した音声モデル(Whisper)とビデオモデル(AV-HuBERT)の強みを組み合わせた多言語AVSRのためのmWhisper-Flamingoを提案する。
より優れたマルチモーダル統合を実現し、ノイズの多いマルチ言語性能を向上させるため、ペア音声-視覚入力と別音声/視覚入力の両方でモデルを訓練するデコーダモダリティ・ドロップアウトを導入する。
mWhisper-Flamingoは9つの言語からなるAVSRデータセットであるMuAViC上で最先端のWERを実現する。
オーディオヴィジュアルのmWhisper-Flamingoは、ノイズの多い条件下で、すべての言語でオーディオのみのWhisperを一貫して上回っている。
関連論文リスト
- Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation [45.29184681700463]
Whisperのような音声モデルは、数十万時間のデータで訓練されているため、より良い音声からテキストへのデコーダを学ぶことができる。
本稿では,Whisper音声認識と翻訳モデルに視覚的特徴を統合するWhisper-Flamingoを提案する。
LRS3 では最先端の ASR WER (0.68%) と AVSR WER (0.76%) を, LRS2 では最先端の ASR WER (1.3%) と AVSR WER (1.4%) を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:36:54Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。