論文の概要: Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2201.10439v1
- Date: Tue, 25 Jan 2022 16:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 14:56:18.086928
- Title: Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition
- Title(参考訳): 音声・視覚音声認識のためのトランスフォーマチックビデオフロントエンド
- Authors: Dmitriy Serdyuk, Otavio Braga, Olivier Siohan
- Abstract要約: 我々は3Dコンボリューションをビデオトランスフォーマービデオ特徴抽出器に置き換えることを提案する。
私たちは、YouTubeビデオの大規模なコーパスに基づいて、ベースラインと提案されたモデルをトレーニングします。
LRS3-TEDでは、EV18では34.9%のWER、19.3%のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.940239225570645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual automatic speech recognition (AV-ASR) extends the speech
recognition by introducing the video modality. In particular, the information
contained in the motion of the speaker's mouth is used to augment the audio
features. The video modality is traditionally processed with a 3D convolutional
neural network (e.g. 3D version of VGG). Recently, image transformer networks
arXiv:2010.11929 demonstrated the ability to extract rich visual features for
the image classification task. In this work, we propose to replace the 3D
convolution with a video transformer video feature extractor. We train our
baselines and the proposed model on a large scale corpus of the YouTube videos.
Then we evaluate the performance on a labeled subset of YouTube as well as on
the public corpus LRS3-TED. Our best model video-only model achieves the
performance of 34.9% WER on YTDEV18 and 19.3% on LRS3-TED which is a 10% and 9%
relative improvements over the convolutional baseline. We achieve the state of
the art performance of the audio-visual recognition on the LRS3-TED after
fine-tuning our model (1.6% WER).
- Abstract(参考訳): 音声-視覚自動音声認識(av-asr)は,映像モダリティの導入により音声認識を拡張する。
特に、スピーカーの口の動きに含まれる情報は、音声特徴を増強するために使用される。
ビデオモダリティは伝統的に3D畳み込みニューラルネットワーク(VGGの3Dバージョンなど)で処理される。
近年,画像トランスフォーマネットワークarxiv:2010.11929が画像分類タスクにリッチな視覚的特徴を抽出する能力を示した。
本研究では,3Dコンボリューションをビデオトランスフォーマービデオ特徴抽出器に置き換えることを提案する。
我々は、YouTubeビデオの大規模コーパスに基づいて、ベースラインと提案されたモデルをトレーニングする。
次に,youtube のラベル付きサブセットと公開コーパス lrs3-ted の性能評価を行った。
本モデルでは,YTDEV18では34.9% WER,LRS3-TEDでは19.3%,畳み込みベースラインでは10%,相対的に9%向上した。
LRS3-TEDにおける音響視覚認識の芸術的性能は,我々のモデル(1.6% WER)を微調整した後に達成される。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Sounding Video Generator: A Unified Framework for Text-guided Sounding
Video Generation [24.403772976932487]
Sounding Video Generator (SVG) は、オーディオ信号とともにリアルな映像を生成するための統合されたフレームワークである。
VQGANは、視覚フレームとオーディオメロメログラムを離散トークンに変換する。
トランスフォーマーベースのデコーダは、テキスト、ビジュアルフレーム、オーディオ信号間の関連をモデル化するために使用される。
論文 参考訳(メタデータ) (2023-03-29T09:07:31Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Audio-Visual Speech Recognition is Worth 32$\times$32$\times$8 Voxels [8.741914733283501]
本稿では,3次元畳み込み視覚フロントエンドをビデオトランスフォーマーフロントエンドに置き換えることを提案する。
当社のシステムは,YouTubeビデオからなる大規模データセットでトレーニングし,公開されているLSS3-TEDセットのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2021-09-20T13:32:19Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。