論文の概要: Multi-Temporal Lip-Audio Memory for Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.04542v1
- Date: Mon, 8 May 2023 08:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:09:21.636859
- Title: Multi-Temporal Lip-Audio Memory for Visual Speech Recognition
- Title(参考訳): 視覚音声認識のためのマルチテンポラルリップオーディオメモリ
- Authors: Jeong Hun Yeo, Minsu Kim, Yong Man Ro
- Abstract要約: MTLAM(Multi-Temporal Lip-Audio Memory)を提案する。
提案手法は主に2つの部分から構成される: 1) MTLAMは、短期および長期の音声信号から発生する多時間音声特徴を保存し、MTLAMは、推測フェーズにおける視覚的特徴から記憶された多時間音声特徴をロードするための視覚音声マッピングを記憶する。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Speech Recognition (VSR) is a task to predict a sentence or word from
lip movements. Some works have been recently presented which use audio signals
to supplement visual information. However, existing methods utilize only
limited information such as phoneme-level features and soft labels of Automatic
Speech Recognition (ASR) networks. In this paper, we present a Multi-Temporal
Lip-Audio Memory (MTLAM) that makes the best use of audio signals to complement
insufficient information of lip movements. The proposed method is mainly
composed of two parts: 1) MTLAM saves multi-temporal audio features produced
from short- and long-term audio signals, and the MTLAM memorizes a
visual-to-audio mapping to load stored multi-temporal audio features from
visual features at the inference phase. 2) We design an audio temporal model to
produce multi-temporal audio features capturing the context of neighboring
words. In addition, to construct effective visual-to-audio mapping, the audio
temporal models can generate audio features time-aligned with visual features.
Through extensive experiments, we validate the effectiveness of the MTLAM
achieving state-of-the-art performances on two public VSR datasets.
- Abstract(参考訳): 視覚音声認識(VSR)は、唇の動きから文や単語を予測するタスクである。
視覚情報を補うために音声信号を使用する作品も最近紹介されている。
しかし、既存の手法では、音素レベル特徴や自動音声認識(asr)ネットワークのソフトラベルなどの限られた情報のみを使用する。
本稿では,唇運動の情報不足を補うために,音声信号を最大限に活用するマルチタイムリップオーディオメモリ(mtlam)を提案する。
提案手法は主に2つの部分からなる。
1) MTLAMは, 短時間および長期の音声信号から発生する多時間音声特徴を保存し, MTLAMは, 推測フェーズにおける視覚特徴から格納された多時間音声特徴をロードするための視覚音声マッピングを記憶する。
2) 隣接単語の文脈を捉えるマルチモーダルな音声特徴を生成するために, 音声時間モデルを設計する。
さらに、効果的な視覚音声マッピングを構築するために、音声時間モデルでは、視覚的特徴と時間的整合した音声特徴を生成することができる。
広範な実験を通じて,2つの公開vsrデータセットにおけるmtlamの有効性を検証する。
関連論文リスト
- Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Dual-path Attention is All You Need for Audio-Visual Speech Extraction [34.7260610874298]
音声視覚機能を融合する新しい方法を提案する。
提案アルゴリズムは,視覚的特徴を付加的な特徴ストリームとして組み込む。
その結果,他の時間領域ベース音声-視覚融合モデルと比較して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-07-09T07:27:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。