論文の概要: Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models
- arxiv url: http://arxiv.org/abs/2207.05692v1
- Date: Sun, 5 Jun 2022 15:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 12:19:33.899112
- Title: Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models
- Title(参考訳): 単語ベースモデルに対するクロスモーダル知識蒸留による唇聴取感の混合
- Authors: Hadeel Mabrouk, Omar Abugabal, Nourhan Sakr, and Hesham M. Eraqi
- Abstract要約: この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
- 参考スコア(独自算出の注目度): 0.03499870393443267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a technique to transfer speech recognition
capabilities from audio speech recognition systems to visual speech
recognizers, where our goal is to utilize audio data during lipreading model
training. Impressive progress in the domain of speech recognition has been
exhibited by audio and audio-visual systems. Nevertheless, there is still much
to be explored with regards to visual speech recognition systems due to the
visual ambiguity of some phonemes. To this end, the development of visual
speech recognition models is crucial given the instability of audio models. The
main contributions of this work are i) building on recent state-of-the-art
word-based lipreading models by integrating sequence-level and frame-level
Knowledge Distillation (KD) to their systems; ii) leveraging audio data during
training visual models, a feat which has not been utilized in prior word-based
work; iii) proposing the Gaussian-shaped averaging in frame-level KD, as an
efficient technique that aids the model in distilling knowledge at the sequence
model encoder. This work proposes a novel and competitive architecture for
lip-reading, as we demonstrate a noticeable improvement in performance, setting
a new benchmark equals to 88.64% on the LRW dataset.
- Abstract(参考訳): 本研究では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
音声認識の領域における印象的な進歩は、音声と音声の視覚システムによって示されてきた。
しかし、一部の音素の視覚的曖昧さのため、視覚音声認識システムについては、まだ検討すべき点が多い。
この目的のために、音声モデルの不安定性を考えると、視覚音声認識モデルの開発が不可欠である。
この作品の主な貢献は
一 シーケンシャルレベル及びフレームレベル知識蒸留(kd)をシステムに統合して、最新の最先端の単語ベースのリップリードモデルを構築すること。
二 視覚モデルの訓練中に音声データを活用すること。事前の単語に基づく作業において利用されていないこと。
三 フレームレベルのKDにおけるガウス形状平均化を、シーケンスモデルエンコーダにおける知識の蒸留に有効な手法として提案すること。
この研究は、新しいベンチマークをLRWデータセットで88.64%に設定し、顕著な性能向上を示すために、リップリーディングのための新しい競争力のあるアーキテクチャを提案する。
関連論文リスト
- Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。
AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。
提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文 参考訳(メタデータ) (2023-09-29T16:57:21Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip
Reading [0.06157382820537718]
3つのコントリビューションを組み合わせた新しい唇読解モデルを提案する。
LRWリップリーディングデータセットベンチマークでは,顕著な精度向上が示された。
論文 参考訳(メタデータ) (2021-08-07T23:46:25Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。