論文の概要: Audio-visual fine-tuning of audio-only ASR models
- arxiv url: http://arxiv.org/abs/2312.09369v1
- Date: Thu, 14 Dec 2023 22:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:48:55.692522
- Title: Audio-visual fine-tuning of audio-only ASR models
- Title(参考訳): 音声のみのASRモデルの音響視覚微調整
- Authors: Avner May, Dmitriy Serdyuk, Ankit Parag Shah, Otavio Braga, Olivier
Siohan
- Abstract要約: 自己教師付き学習(SSL)アプローチは、転写されたAVデータへの依存を減らすために開発された。
本稿では,これらの高価なAV-SSLメソッドを,シンプルで高速なテキストタビューオのみのSSLメソッドに置き換えることを提案する。
提案手法は, LRS3-TEDベンチマークタスク上でのSOTA (State-of-the-art) AV-SSLメソッドと競合することを示す。
- 参考スコア(独自算出の注目度): 14.924771983913457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual automatic speech recognition (AV-ASR) models are very effective
at reducing word error rates on noisy speech, but require large amounts of
transcribed AV training data. Recently, audio-visual self-supervised learning
(SSL) approaches have been developed to reduce this dependence on transcribed
AV data, but these methods are quite complex and computationally expensive. In
this work, we propose replacing these expensive AV-SSL methods with a simple
and fast \textit{audio-only} SSL method, and then performing AV supervised
fine-tuning. We show that this approach is competitive with state-of-the-art
(SOTA) AV-SSL methods on the LRS3-TED benchmark task (within 0.5% absolute
WER), while being dramatically simpler and more efficient (12-30x faster to
pre-train). Furthermore, we show we can extend this approach to convert a SOTA
audio-only ASR model into an AV model. By doing so, we match SOTA AV-SSL
results, even though no AV data was used during pre-training.
- Abstract(参考訳): 音声・視覚自動音声認識(av-asr)モデルは、雑音下での単語誤り率を低減するのに非常に有効であるが、大量のav訓練データを必要とする。
近年,音声認識による自己教師付き学習(SSL)手法が開発され,書き起こされたAVデータへの依存度が低減されている。
本研究では,これらの高価なAV-SSLメソッドを,シンプルで高速な \textit{audio-only} SSL メソッドに置き換えて,AV による微調整を行う。
提案手法は,RS3-TEDベンチマークタスク(0.5%絶対WER)において,最先端(SOTA)のAV-SSL手法と競合する一方で,劇的にシンプルで効率が良く(12~30倍高速,事前訓練)であることを示す。
さらに,SOTA音声のみのASRモデルをAVモデルに変換するために,このアプローチを拡張した。
これにより、事前トレーニング中にavデータを使用しなくても、sata av-ssl結果と一致します。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。