論文の概要: Learning Speaker-Invariant Visual Features for Lipreading
- arxiv url: http://arxiv.org/abs/2506.07572v1
- Date: Mon, 09 Jun 2025 09:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.884518
- Title: Learning Speaker-Invariant Visual Features for Lipreading
- Title(参考訳): リリーディングのための話者不変視覚特徴の学習
- Authors: Yu Li, Feng Xue, Shujie Li, Jinrui Zhang, Shuang Yang, Dan Guo, Richang Hong,
- Abstract要約: リリーディングは、視覚的な唇の動きを音声テキストに変換することを目的とした、難しいクロスモーダルタスクである。
既存の唇読解法は、しばしば、視覚とテキストの間に急激な相関をもたらす話者固有の唇属性を抽出する。
SIFLipは、話者固有の属性をアンタングルする、話者不変の視覚特徴学習フレームワークである。
- 参考スコア(独自算出の注目度): 54.670614643480505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lipreading is a challenging cross-modal task that aims to convert visual lip movements into spoken text. Existing lipreading methods often extract visual features that include speaker-specific lip attributes (e.g., shape, color, texture), which introduce spurious correlations between vision and text. These correlations lead to suboptimal lipreading accuracy and restrict model generalization. To address this challenge, we introduce SIFLip, a speaker-invariant visual feature learning framework that disentangles speaker-specific attributes using two complementary disentanglement modules (Implicit Disentanglement and Explicit Disentanglement) to improve generalization. Specifically, since different speakers exhibit semantic consistency between lip movements and phonetic text when pronouncing the same words, our implicit disentanglement module leverages stable text embeddings as supervisory signals to learn common visual representations across speakers, implicitly decoupling speaker-specific features. Additionally, we design a speaker recognition sub-task within the main lipreading pipeline to filter speaker-specific features, then further explicitly disentangle these personalized visual features from the backbone network via gradient reversal. Experimental results demonstrate that SIFLip significantly enhances generalization performance across multiple public datasets. Experimental results demonstrate that SIFLip significantly improves generalization performance across multiple public datasets, outperforming state-of-the-art methods.
- Abstract(参考訳): リリーディングは、視覚的な唇の動きを音声テキストに変換することを目的とした、難しいクロスモーダルタスクである。
既存の唇読解法は、しばしば話者固有の唇属性(例えば、形状、色、テクスチャ)を含む視覚的特徴を抽出し、視覚とテキストの間に刺激的な相関をもたらす。
これらの相関により、最適下唇読解精度が向上し、モデル一般化が制限される。
この課題に対処するために、SIFLipは、話者固有の属性を2つの相補的アンタングルメントモジュール(Implicit DisentanglementとExplicit Disentanglement)を使ってアンタングル化する、話者不変の視覚特徴学習フレームワークである。
具体的には、異なる話者が同じ単語を発音するときの唇の動きと音声テキストのセマンティックな一貫性を示すため、暗黙のアンタングルメントモジュールは安定したテキスト埋め込みを監督信号として活用し、話者間の共通的な視覚的表現を学習し、話者固有の特徴を暗黙的に分離する。
さらに,本研究では,主読唇パイプライン内の話者認識サブタスクを設計し,話者固有の特徴をフィルタし,さらに勾配逆転によるバックボーンネットワークからこれらのパーソナライズされた視覚的特徴を明示的に切り離す。
実験の結果,SIFLipは複数の公開データセット間での一般化性能を著しく向上させることがわかった。
実験の結果、SIFLipは複数の公開データセット間での一般化性能を著しく改善し、最先端の手法よりも優れていた。
関連論文リスト
- Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。