論文の概要: Audio-Visual Speech Recognition is Worth 32$\times$32$\times$8 Voxels
- arxiv url: http://arxiv.org/abs/2109.09536v1
- Date: Mon, 20 Sep 2021 13:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 22:21:27.770205
- Title: Audio-Visual Speech Recognition is Worth 32$\times$32$\times$8 Voxels
- Title(参考訳): 音声・視覚音声認識は32$\times$32$\times$8voxels
- Authors: Dmitriy Serdyuk, Otavio Braga and Olivier Siohan
- Abstract要約: 本稿では,3次元畳み込み視覚フロントエンドをビデオトランスフォーマーフロントエンドに置き換えることを提案する。
当社のシステムは,YouTubeビデオからなる大規模データセットでトレーニングし,公開されているLSS3-TEDセットのパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 8.741914733283501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual automatic speech recognition (AV-ASR) introduces the video
modality into the speech recognition process, often by relying on information
conveyed by the motion of the speaker's mouth. The use of the video signal
requires extracting visual features, which are then combined with the acoustic
features to build an AV-ASR system [1]. This is traditionally done with some
form of 3D convolutional network (e.g. VGG) as widely used in the computer
vision community. Recently, image transformers [2] have been introduced to
extract visual features useful for image classification tasks. In this work, we
propose to replace the 3D convolutional visual front-end with a video
transformer front-end. We train our systems on a large-scale dataset composed
of YouTube videos and evaluate performance on the publicly available LRS3-TED
set, as well as on a large set of YouTube videos. On a lip-reading task, the
transformer-based front-end shows superior performance compared to a strong
convolutional baseline. On an AV-ASR task, the transformer front-end performs
as well as (or better than) the convolutional baseline. Fine-tuning our model
on the LRS3-TED training set matches previous state of the art. Thus, we
experimentally show the viability of the convolution-free model for AV-ASR.
- Abstract(参考訳): 音声視覚自動音声認識(AV-ASR)は、しばしば話者の口の動きによって伝達される情報に依存して、音声認識プロセスにビデオモダリティを導入する。
ビデオ信号の使用には視覚的特徴の抽出が必要であり、音響的特徴と組み合わせてAV-ASRシステム [1] を構築する。
これは伝統的にコンピュータビジョンコミュニティで広く使われているある種の3d畳み込みネットワーク(例えばvgg)で行われている。
近年,画像分類タスクに有用な視覚特徴を抽出するために画像変換器[2]が導入された。
本研究では,3次元畳み込み視覚フロントエンドをビデオトランスフォーマーフロントエンドに置き換えることを提案する。
当社のシステムは、YouTubeビデオからなる大規模なデータセットに基づいてトレーニングし、公開されているLSS3-TEDセットおよびYouTubeビデオの大規模なセットのパフォーマンスを評価する。
リップ読み取りタスクでは、トランスベースのフロントエンドは強い畳み込みベースラインよりも優れたパフォーマンスを示す。
AV-ASRタスクでは、トランスフォーマーのフロントエンドは畳み込みベースラインと同様に(あるいはそれ以上)機能する。
LRS3-TEDトレーニングセットのモデルを微調整することは、過去の技術と一致する。
そこで我々は,AV-ASRにおける畳み込みのないモデルの有効性を実験的に示す。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition [9.940239225570645]
我々は3Dコンボリューションをビデオトランスフォーマービデオ特徴抽出器に置き換えることを提案する。
私たちは、YouTubeビデオの大規模なコーパスに基づいて、ベースラインと提案されたモデルをトレーニングします。
LRS3-TEDでは、EV18では34.9%のWER、19.3%のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-01-25T16:35:54Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。