論文の概要: AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR
- arxiv url: http://arxiv.org/abs/2303.16501v1
- Date: Wed, 29 Mar 2023 07:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:47:41.728458
- Title: AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR
- Title(参考訳): AVFormer:ゼロショットAV-ASRのための凍結音声モデルへの視覚注入
- Authors: Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid
- Abstract要約: 本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
- 参考スコア(独自算出の注目度): 79.21857972093332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audiovisual automatic speech recognition (AV-ASR) aims to improve the
robustness of a speech recognition system by incorporating visual information.
Training fully supervised multimodal models for this task from scratch, however
is limited by the need for large labelled audiovisual datasets (in each
downstream domain of interest). We present AVFormer, a simple method for
augmenting audio-only models with visual information, at the same time
performing lightweight domain adaptation. We do this by (i) injecting visual
embeddings into a frozen ASR model using lightweight trainable adaptors. We
show that these can be trained on a small amount of weakly labelled video data
with minimum additional training time and parameters. (ii) We also introduce a
simple curriculum scheme during training which we show is crucial to enable the
model to jointly process audio and visual information effectively; and finally
(iii) we show that our model achieves state of the art zero-shot results on
three different AV-ASR benchmarks (How2, VisSpeech and Ego4D), while also
crucially preserving decent performance on traditional audio-only speech
recognition benchmarks (LibriSpeech). Qualitative results show that our model
effectively leverages visual information for robust speech recognition.
- Abstract(参考訳): 聴覚自動音声認識(AV-ASR)は,視覚情報を組み込んだ音声認識システムの堅牢性向上を目的としている。
しかし、このタスクのために完全に教師付きマルチモーダルモデルをスクラッチからトレーニングすることは、大きなラベル付きオーディオビジュアルデータセット(各下流ドメインの)の必要性によって制限される。
AVFormerは、視覚情報で音声のみのモデルを拡張するための簡易な手法であり、同時に軽量なドメイン適応を行う。
私たちはこれを
i)軽量なトレーニング可能な適応器を用いて凍結型ASRモデルに視覚的埋め込みを注入する。
これらを,最小限のトレーニング時間とパラメータで,少量の弱いラベル付きビデオデータでトレーニングできることを実証する。
(II)学習中の簡単なカリキュラムも導入し、モデルが音声と視覚情報を効果的に処理できるようにすることが重要であることを示す。
(iii)本モデルは3種類のav-asrベンチマーク(how2, visspeech, ego4d)で技術ゼロショット結果を達成し,また従来の音声認識ベンチマーク(librispeech)でも良好な性能を保っていることを示す。
定性的な結果から,我々のモデルは視覚情報を利用して頑健な音声認識を行う。
関連論文リスト
- Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。
AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。
提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文 参考訳(メタデータ) (2023-09-29T16:57:21Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。