論文の概要: Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping
- arxiv url: http://arxiv.org/abs/2308.06112v1
- Date: Fri, 11 Aug 2023 12:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:06:02.620572
- Title: Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping
- Title(参考訳): Lip2Vec:潜時から潜時までの音声表現マッピングによる高能率かつロバストな視覚音声認識
- Authors: Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Haithem Boussaid,
Ebtessam Almazrouei, Merouane Debbah
- Abstract要約: 従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
- 参考スコア(独自算出の注目度): 4.271091833712731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Speech Recognition (VSR) differs from the common perception tasks as
it requires deeper reasoning over the video sequence, even by human experts.
Despite the recent advances in VSR, current approaches rely on labeled data to
fully train or finetune their models predicting the target speech. This hinders
their ability to generalize well beyond the training set and leads to
performance degeneration under out-of-distribution challenging scenarios.
Unlike previous works that involve auxiliary losses or complex training
procedures and architectures, we propose a simple approach, named Lip2Vec that
is based on learning a prior model. Given a robust visual speech encoder, this
network maps the encoded latent representations of the lip sequence to their
corresponding latents from the audio pair, which are sufficiently invariant for
effective text decoding. The generated audio representation is then decoded to
text using an off-the-shelf Audio Speech Recognition (ASR) model. The proposed
model compares favorably with fully-supervised learning methods on the LRS3
dataset achieving 26 WER. Unlike SoTA approaches, our model keeps a reasonable
performance on the VoxCeleb test set. We believe that reprogramming the VSR as
an ASR task narrows the performance gap between the two and paves the way for
more flexible formulations of lip reading.
- Abstract(参考訳): 視覚音声認識(VSR)は、人間の専門家でさえ、ビデオシーケンスの深い推論を必要とするため、一般的な知覚タスクとは異なる。
vsrの最近の進歩にもかかわらず、現在のアプローチはラベル付きデータに依存して、ターゲット音声を予測するモデルを十分に訓練または微調整している。
これにより、トレーニングセットをはるかに越えて一般化する能力が損なわれ、アウト・オブ・ディストリビューションの難しいシナリオ下でのパフォーマンス劣化につながる。
補助的損失や複雑なトレーニング手順やアーキテクチャを含む従来の作業とは違い,従来のモデル学習に基づくシンプルなアプローチであるLip2Vecを提案する。
頑健な視覚音声エンコーダが与えられた場合、このネットワークは、有効なテキスト復号に十分な不変量である音声ペアから、リップシーケンスの符号化された潜時表現を対応する潜時表現にマッピングする。
生成された音声表現は、オフザシェルフ音声音声認識(ASR)モデルを用いてテキストに復号される。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
SoTAのアプローチとは異なり、私たちのモデルはVoxCelebテストセット上で適切なパフォーマンスを維持します。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解方法の道を開くと信じている。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。
音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文 参考訳(メタデータ) (2023-02-17T12:31:26Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。