論文の概要: Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization
- arxiv url: http://arxiv.org/abs/2403.16071v1
- Date: Sun, 24 Mar 2024 09:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 17:45:32.000706
- Title: Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization
- Title(参考訳): 相互情報規則化によるランドマーク誘導型クロススピーカリップ読解
- Authors: Linzhi Wu, Xingyu Zhang, Yakun Zhang, Changyan Zheng, Tiejun Liu, Liang Xie, Ye Yan, Erwei Yin,
- Abstract要約: そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
- 参考スコア(独自算出の注目度): 4.801824063852808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip reading, the process of interpreting silent speech from visual lip movements, has gained rising attention for its wide range of realistic applications. Deep learning approaches greatly improve current lip reading systems. However, lip reading in cross-speaker scenarios where the speaker identity changes, poses a challenging problem due to inter-speaker variability. A well-trained lip reading system may perform poorly when handling a brand new speaker. To learn a speaker-robust lip reading model, a key insight is to reduce visual variations across speakers, avoiding the model overfitting to specific speakers. In this work, in view of both input visual clues and latent representations based on a hybrid CTC/attention architecture, we propose to exploit the lip landmark-guided fine-grained visual clues instead of frequently-used mouth-cropped images as input features, diminishing speaker-specific appearance characteristics. Furthermore, a max-min mutual information regularization approach is proposed to capture speaker-insensitive latent representations. Experimental evaluations on public lip reading datasets demonstrate the effectiveness of the proposed approach under the intra-speaker and inter-speaker conditions.
- Abstract(参考訳): 視覚的な唇の動きからサイレントスピーチを解釈するプロセスであるリップリーディングは、幅広い現実的な応用において注目を集めている。
深層学習アプローチは、現在の唇読解システムを大幅に改善する。
しかし、話者アイデンティティが変化する話者間シナリオにおける唇読みは、話者間のばらつきによって難しい問題を引き起こす。
十分に訓練された唇読解システムは、真新しい話者を扱う際には、性能が良くない。
話者不自由な唇読解モデルを学ぶために、重要な洞察は、特定の話者に過度に適合するモデルを避けることで、話者間の視覚的変動を減らすことである。
本研究は,ハイブリッドCTC/アテンションアーキテクチャに基づく入力視覚的手がかりと潜時表現の両方の観点から,頻繁に使用される口輪画像の代わりに,唇のランドマーク付ききめ細かな視覚的手がかりを応用し,話者特有の外観特性を低下させる手法を提案する。
さらに、話者不感な潜在表現をキャプチャするために、最大最小の相互情報正規化手法を提案する。
提案手法の有効性を, 話者内および話者間条件下で実験的に評価した。
関連論文リスト
- Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language [48.17930606488952]
唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。
本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:05:12Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。
話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文 参考訳(メタデータ) (2022-08-09T01:59:30Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。