Fugu-MT 論文翻訳(概要): Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models

論文の概要: Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models

arxiv url: http://arxiv.org/abs/2207.05692v1
Date: Sun, 5 Jun 2022 15:47:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 12:19:33.899112
Title: Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models
Title（参考訳）: 単語ベースモデルに対するクロスモーダル知識蒸留による唇聴取感の混合
Authors: Hadeel Mabrouk, Omar Abugabal, Nourhan Sakr, and Hesham M. Eraqi
Abstract要約: この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
参考スコア（独自算出の注目度）: 0.03499870393443267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we propose a technique to transfer speech recognition capabilities from audio speech recognition systems to visual speech recognizers, where our goal is to utilize audio data during lipreading model training. Impressive progress in the domain of speech recognition has been exhibited by audio and audio-visual systems. Nevertheless, there is still much to be explored with regards to visual speech recognition systems due to the visual ambiguity of some phonemes. To this end, the development of visual speech recognition models is crucial given the instability of audio models. The main contributions of this work are i) building on recent state-of-the-art word-based lipreading models by integrating sequence-level and frame-level Knowledge Distillation (KD) to their systems; ii) leveraging audio data during training visual models, a feat which has not been utilized in prior word-based work; iii) proposing the Gaussian-shaped averaging in frame-level KD, as an efficient technique that aids the model in distilling knowledge at the sequence model encoder. This work proposes a novel and competitive architecture for lip-reading, as we demonstrate a noticeable improvement in performance, setting a new benchmark equals to 88.64% on the LRW dataset.
Abstract（参考訳）: 本研究では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。音声認識の領域における印象的な進歩は、音声と音声の視覚システムによって示されてきた。しかし、一部の音素の視覚的曖昧さのため、視覚音声認識システムについては、まだ検討すべき点が多い。この目的のために、音声モデルの不安定性を考えると、視覚音声認識モデルの開発が不可欠である。この作品の主な貢献は一シーケンシャルレベル及びフレームレベル知識蒸留(kd)をシステムに統合して、最新の最先端の単語ベースのリップリードモデルを構築すること。二視覚モデルの訓練中に音声データを活用すること。事前の単語に基づく作業において利用されていないこと。三フレームレベルのKDにおけるガウス形状平均化を、シーケンスモデルエンコーダにおける知識の蒸留に有効な手法として提案すること。この研究は、新しいベンチマークをLRWデータセットで88.64%に設定し、顕著な性能向上を示すために、リップリーディングのための新しい競争力のあるアーキテクチャを提案する。

関連論文リスト

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は,雑音の多い音声の品質向上を目的としている。本稿では,SEのための新しいマルチモーダリティ学習フレームワークを提案する。提案するAVSEシステムは,音声品質を著しく向上し,生成成果物を低減できることを示す。
論文参考訳（メタデータ） (2025-01-23T04:36:29Z)
Late fusion ensembles for speech recognition on diverse input audio representations [0.0]
音声音声の多種多様な表現について検討し、E-Branchformerモデルの後期融合アンサンブルの性能に与える影響について検討する。我々は、同等のテクニックでトレーニングされた最先端のモデルに対して、1%から14%$の改善が依然として達成可能であることを示す。
論文参考訳（メタデータ） (2024-12-01T10:19:24Z)
CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文参考訳（メタデータ） (2024-10-18T14:43:34Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。 AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文参考訳（メタデータ） (2023-09-29T16:57:21Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文参考訳（メタデータ） (2023-03-29T07:24:28Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading [0.06157382820537718]
3つのコントリビューションを組み合わせた新しい唇読解モデルを提案する。 LRWリップリーディングデータセットベンチマークでは,顕著な精度向上が示された。
論文参考訳（メタデータ） (2021-08-07T23:46:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。