論文の概要: Streaming Audio-Visual Speech Recognition with Alignment Regularization
- arxiv url: http://arxiv.org/abs/2211.02133v1
- Date: Thu, 3 Nov 2022 20:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:37:51.937157
- Title: Streaming Audio-Visual Speech Recognition with Alignment Regularization
- Title(参考訳): アライメント正規化による音声認識のストリーム化
- Authors: Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja
Pantic
- Abstract要約: 音声・視覚自動音声認識(AV-ASR)は,これまではほとんど注目されていなかった。
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
- 参考スコア(独自算出の注目度): 69.30185151873707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a word shortly after it is spoken is an important requirement for
automatic speech recognition (ASR) systems in real-world scenarios. As a
result, a large body of work on streaming audio-only ASR models has been
presented in the literature. However, streaming audio-visual automatic speech
recognition (AV-ASR) has received little attention in earlier works. In this
work, we propose a streaming AV-ASR system based on a hybrid connectionist
temporal classification (CTC)/attention neural network architecture. The audio
and the visual encoder neural networks are both based on the conformer
architecture, which is made streamable using chunk-wise self-attention (CSA)
and causal convolution. Streaming recognition with a decoder neural network is
realized by using the triggered attention technique, which performs
time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR
criteria, such as CTC, a synchronized response from the audio and visual
encoders is critical for a joint AV decision making process. In this work, we
propose a novel alignment regularization technique that promotes
synchronization of the audio and visual encoder, which in turn results in
better word error rates (WERs) at all SNR levels for streaming and offline
AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the
Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup,
respectively, which both present state-of-the-art results when no external
training data are used.
- Abstract(参考訳): 発話後すぐに単語を認識することは、現実のシナリオにおける自動音声認識(ASR)システムにとって重要な要件である。
その結果,ストリーミングオーディオのみのASRモデルに関する多くの研究が文献で紹介されている。
しかし,従来の作品では音声・視覚自動音声認識(AV-ASR)がほとんど注目されていない。
本研究では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
オーディオとビジュアルエンコーダのニューラルネットワークはどちらもコンフォーマーアーキテクチャに基づいており、チャンクワイド・セルフアテンション(CSA)と因果畳み込みを用いてストリーム化されている。
デコーダニューラルネットワークを用いたストリーム認識は、共同CTC/アテンションスコアによる時間同期復号を行うトリガアテンション技術を用いて実現される。
CTCのようなフレームレベルのASR基準では、オーディオと視覚エンコーダからの同期応答は、共同AV決定プロセスにおいて重要である。
本研究では、音声と視覚エンコーダの同期を促進する新しいアライメント正規化手法を提案する。これにより、ストリーミングおよびオフラインAV-ASRモデルのための全てのSNRレベルの単語誤り率(WER)が向上する。
提案するav-asrモデルは,リップ読解文3(lrs3)データセットをオフラインとオンラインでそれぞれ2.0%,2.6%のwersを実現する。
関連論文リスト
- Low-Latency Neural Stereo Streaming [6.49558286032794]
低レイテンシ・ニューラル for Stereo Video Streaming (LLSS) は低遅延ステレオビデオストリーミング用に設計された新しいステレオビデオ符号化法である。
LLSSは、左と右のビューを並列に処理し、レイテンシを最小化します。
論文 参考訳(メタデータ) (2024-03-26T17:11:51Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - End-to-End Lip Synchronisation Based on Pattern Classification [15.851638021923875]
本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T11:42:32Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。