論文の概要: Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data
- arxiv url: http://arxiv.org/abs/2603.08249v1
- Date: Mon, 09 Mar 2026 11:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.829197
- Title: Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data
- Title(参考訳): 合成視覚データを用いたゼロAV音源シナリオにおけるブートストラップ音声音声認識
- Authors: Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier Hernando,
- Abstract要約: 本稿では,静的な顔画像と実音声を唇同期して生成した合成視覚ストリームをベースとした,ゼロAV音源のAVSRフレームワークを提案する。
我々は700時間以上のトーキングヘッドビデオを合成し、事前訓練されたAV-HuBERTモデルを微調整する。
我々のモデルは、パラメータやトレーニングデータが少なくて、ほぼ最先端の性能を達成し、同じ訓練されたオーディオのみのベースラインを上回り、ノイズのマルチモーダル的優位性を保っている。
- 参考スコア(独自算出の注目度): 4.911970211082446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audiovisual speech recognition (AVSR) combines acoustic and visual cues to improve transcription robustness under challenging conditions but remains out of reach for most under-resourced languages due to the lack of labeled video corpora for training. We propose a zero-AV-resource AVSR framework that relies on synthetic visual streams generated by lip-syncing static facial images with real audio. We first evaluate synthetic visual augmentation on Spanish benchmarks, then apply it to Catalan, a language with no annotated audiovisual corpora. We synthesize over 700 hours of talking-head video and fine-tune a pre-trained AV-HuBERT model. On a manually annotated Catalan benchmark, our model achieves near state-of-the-art performance with much fewer parameters and training data, outperforms an identically trained audio-only baseline, and preserves multimodal advantages in noise. Scalable synthetic video thus offers a viable substitute for real recordings in zero-AV-resource AVSR.
- Abstract(参考訳): オーディオ視覚音声認識(AVSR)は、音響的および視覚的手がかりを組み合わせて、困難な条件下での転写の堅牢性を改善するが、訓練用のラベル付きビデオコーパスが欠如しているため、ほとんどのアンダーリソース言語には及ばない。
本稿では,静的な顔画像と実音声を唇同期して生成した合成視覚ストリームをベースとした,ゼロAV音源のAVSRフレームワークを提案する。
まず、スペイン語のベンチマークで合成視覚増強を評価し、アノテートされた音声視覚コーパスを持たない言語であるカタルーニャ語に適用した。
我々は700時間以上のトーキングヘッドビデオを合成し、事前訓練されたAV-HuBERTモデルを微調整する。
手動でアノテートしたカタルーニャのベンチマークでは、パラメータやトレーニングデータが少なく、ほぼ最先端のパフォーマンスを実現し、同じ訓練されたオーディオのみのベースラインを上回り、ノイズのマルチモーダル的優位性を保っている。
したがって、スケーラブルな合成ビデオは、ゼロAV音源AVSRにおける実際の録音の代替となる。
関連論文リスト
- mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition [31.824116269818564]
マルチリンガル音声認識のためのmWhisper-Flamingoを提案する。
事前訓練されたオーディオモデル(Whisper)とビデオモデル(AV-HuBERT)の長所を組み合わせる。
オーディオヴィジュアルのmWhisper-Flamingoは、ノイズの多い条件下で、すべての言語でオーディオのみのWhisperを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-03T17:29:52Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。