論文の概要: Conformers are All You Need for Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.10915v2
- Date: Wed, 13 Dec 2023 04:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:01:02.971992
- Title: Conformers are All You Need for Visual Speech Recognition
- Title(参考訳): コンフォーメータは、視覚音声認識に必要なすべてです。
- Authors: Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan
- Abstract要約: より大型のコンフォーマーエンコーダと組み合わせた線形視覚フロントエンドは、低レイテンシ、より効率的なメモリ使用率、WER性能の向上をもたらすことを示す。
わずか4年前の音声のみのモデルの性能に匹敵する、LSS3データセット上での視覚音声認識のための12.8% WERの新たな最先端技術を実現している。
- 参考スコア(独自算出の注目度): 14.746543289928024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual speech recognition models extract visual features in a hierarchical
manner. At the lower level, there is a visual front-end with a limited temporal
receptive field that processes the raw pixels depicting the lips or faces. At
the higher level, there is an encoder that attends to the embeddings produced
by the front-end over a large temporal receptive field. Previous work has
focused on improving the visual front-end of the model to extract more useful
features for speech recognition. Surprisingly, our work shows that complex
visual front-ends are not necessary. Instead of allocating resources to a
sophisticated visual front-end, we find that a linear visual front-end paired
with a larger Conformer encoder results in lower latency, more efficient memory
usage, and improved WER performance. We achieve a new state-of-the-art of 12.8%
WER for visual speech recognition on the TED LRS3 dataset, which rivals the
performance of audio-only models from just four years ago.
- Abstract(参考訳): 視覚音声認識モデルは階層的に視覚特徴を抽出する。
下層には、唇や顔を描いた生のピクセルを処理する、限られた時間的受容野を持つ視覚フロントエンドがある。
より高いレベルでは、大きな時間的受容体の上にフロントエンドによって生成される埋め込みに対応するエンコーダがある。
従来の研究は、音声認識に有用な特徴を抽出するためにモデルの視覚的フロントエンドを改善することに重点を置いてきた。
驚くべきことに、我々の研究は複雑な視覚的フロントエンドは必要ないことを示している。
高度なビジュアルフロントエンドにリソースを割り当てる代わりに、より大規模なコンフォーマーエンコーダと組み合わせた線形ビジュアルフロントエンドが低レイテンシ、より効率的なメモリ使用量、WER性能の向上をもたらすことがわかった。
TED LRS3データセットでは、わずか4年前の音声のみのモデルのパフォーマンスに匹敵する、視覚音声認識のための12.8% WERの新たな最先端技術を実現している。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - On the Role of Visual Cues in Audiovisual Speech Enhancement [21.108094726214784]
ニューラルオーディオ視覚音声強調モデルでは、視覚的手がかりを用いてターゲット音声信号の品質を向上させる方法を示す。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの機能として利用できることである。
論文 参考訳(メタデータ) (2020-04-25T01:00:03Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。