論文の概要: LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2501.04204v1
- Date: Wed, 08 Jan 2025 00:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:15.479074
- Title: LipGen: Viseme-Guided Lip Video Generation for Enhancing Visual Speech Recognition
- Title(参考訳): LipGen:視覚音声認識のための視覚誘導リップビデオ生成
- Authors: Bowen Hao, Dongliang Zhou, Xiaojie Li, Xingyu Zhang, Liang Xie, Jianlong Wu, Erwei Yin,
- Abstract要約: モデルロバスト性を改善するための新しいフレームワークであるLipGenを提案する。
注意機構を兼ね備えたビセメ分類を補助タスクとして導入する。
本手法は,野生(LRW)データセットにおける唇読解における現在の最先端技術と比較して,優れた性能を示す。
- 参考スコア(独自算出の注目度): 12.336693356113308
- License:
- Abstract: Visual speech recognition (VSR), commonly known as lip reading, has garnered significant attention due to its wide-ranging practical applications. The advent of deep learning techniques and advancements in hardware capabilities have significantly enhanced the performance of lip reading models. Despite these advancements, existing datasets predominantly feature stable video recordings with limited variability in lip movements. This limitation results in models that are highly sensitive to variations encountered in real-world scenarios. To address this issue, we propose a novel framework, LipGen, which aims to improve model robustness by leveraging speech-driven synthetic visual data, thereby mitigating the constraints of current datasets. Additionally, we introduce an auxiliary task that incorporates viseme classification alongside attention mechanisms. This approach facilitates the efficient integration of temporal information, directing the model's focus toward the relevant segments of speech, thereby enhancing discriminative capabilities. Our method demonstrates superior performance compared to the current state-of-the-art on the lip reading in the wild (LRW) dataset and exhibits even more pronounced advantages under challenging conditions.
- Abstract(参考訳): 視覚音声認識(VSR)は、一般的にリップリーディングとして知られているが、広範に応用されているため、大きな注目を集めている。
深層学習技術の出現とハードウェア能力の進歩により、唇読解モデルの性能が大幅に向上した。
これらの進歩にもかかわらず、既存のデータセットは主に、唇の動きの変動に制限のある安定したビデオ記録を特徴としている。
この制限は、現実世界のシナリオで発生する変動に非常に敏感なモデルをもたらす。
この問題に対処するために,音声駆動型合成視覚データを活用することによってモデルロバスト性を向上し,現在のデータセットの制約を軽減することを目的とした,新しいフレームワークLipGenを提案する。
さらに,注意機構を兼ね備えたビセメ分類を補助タスクとして導入する。
このアプローチにより、時間情報の効率的な統合が促進され、モデルの焦点が関連する音声セグメントに向けられ、識別能力が向上する。
提案手法は, ワイルド (LRW) データセットの唇読解における現状よりも優れた性能を示し, 挑戦条件下でさらに顕著な優位性を示す。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition [46.438575751932866]
LipGERはノイズロスASRのための視覚的手がかりを利用するためのフレームワークである。
LipGERは単語誤り率を1.1%-49.2%の範囲で改善することを示す。
また、リップモーションキューを備えた仮説転写ペアを備えた大規模データセットであるLipHypをリリースする。
論文 参考訳(メタデータ) (2024-06-06T18:17:59Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。