論文の概要: SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer
- arxiv url: http://arxiv.org/abs/2505.04394v1
- Date: Wed, 07 May 2025 13:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.085272
- Title: SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer
- Title(参考訳): SwinLip: Swin Transformer を用いた唇読解のための効率的なビジュアル音声エンコーダ
- Authors: Young-Hu Park, Rae-Hong Park, Hyung-Min Park,
- Abstract要約: 本稿では,唇読解のための効率的な視覚音声エンコーダを提案する。
本研究では,スイニングトランスの階層構造とウィンドウ自己注意を唇読解に適用する。
We have confirmed that our SwinLip improves the performance and inference speed of the lip reading network。
- 参考スコア(独自算出の注目度): 6.759148939470332
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents an efficient visual speech encoder for lip reading. While most recent lip reading studies have been based on the ResNet architecture and have achieved significant success, they are not sufficiently suitable for efficiently capturing lip reading features due to high computational complexity in modeling spatio-temporal information. Additionally, using a complex visual model not only increases the complexity of lip reading models but also induces delays in the overall network for multi-modal studies (e.g., audio-visual speech recognition, speech enhancement, and speech separation). To overcome the limitations of Convolutional Neural Network (CNN)-based models, we apply the hierarchical structure and window self-attention of the Swin Transformer to lip reading. We configure a new lightweight scale of the Swin Transformer suitable for processing lip reading data and present the SwinLip visual speech encoder, which efficiently reduces computational load by integrating modified Convolution-augmented Transformer (Conformer) temporal embeddings with conventional spatial embeddings in the hierarchical structure. Through extensive experiments, we have validated that our SwinLip successfully improves the performance and inference speed of the lip reading network when applied to various backbones for word and sentence recognition, reducing computational load. In particular, our SwinLip demonstrated robust performance in both English LRW and Mandarin LRW-1000 datasets and achieved state-of-the-art performance on the Mandarin LRW-1000 dataset with less computation compared to the existing state-of-the-art model.
- Abstract(参考訳): 本稿では,唇読解のための効率的な視覚音声エンコーダを提案する。
最近のリップリーディング研究はResNetアーキテクチャに基づいており、大きな成功を収めているが、時空間情報モデリングの計算量が多いため、リップリーディングの特徴を効率的に捉えるには十分ではない。
さらに、複雑な視覚モデルを使用することで、唇読解モデルの複雑さが増大するだけでなく、マルチモーダル研究(例えば、音声・視覚音声認識、音声強調、音声分離)のためのネットワーク全体の遅延も引き起こされる。
畳み込みニューラルネットワーク(CNN)に基づくモデルの限界を克服するために,スウィントランスフォーマーの階層構造とウィンドウ自己注意を唇読解に適用する。
我々は,唇読取データ処理に適したスウィントランスフォーマーの新しい軽量スケールを設定し,従来の空間埋め込みを階層構造に組み込んだコンボリューション拡張トランスフォーマー(コンフォーマー)時間埋め込みを統合することにより,計算負荷を効率的に削減するスウィンリップビジュアル音声エンコーダを提案する。
広範にわたる実験により, 単語および文認識のための様々なバックボーンに適用した場合, スウィンリップは, 唇読解ネットワークの性能と推論速度を向上し, 計算負荷を低減できることを確認した。
特に、我々のSwinLipは、英語のLRWとMandarinのLRW-1000データセットで堅牢な性能を示し、MandarinのLRW-1000データセットでは、既存の最先端モデルと比較して計算量が少なく、最先端のパフォーマンスを達成した。
関連論文リスト
- LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition [12.336693356113308]
モデルロバスト性を改善するための新しいフレームワークであるLipGenを提案する。
注意機構を兼ね備えたビセメ分類を補助タスクとして導入する。
本手法は,野生(LRW)データセットにおける唇読解における現在の最先端技術と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-08T00:52:19Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。