論文の概要: Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading
- arxiv url: http://arxiv.org/abs/2310.05058v3
- Date: Tue, 30 Apr 2024 11:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:47:42.941819
- Title: Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading
- Title(参考訳): 話者適応型唇読解のための分離可能な隠れ単位の寄与
- Authors: Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen,
- Abstract要約: 話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 73.59525356467574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker's own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic features associated with speech content expressed by the talking face always need deep sequential networks to represent accurately. Therefore, we treat the shallow and deep layers differently for speaker adaptive lip reading. Secondly, we observe that a speaker's unique characteristics ( e.g. prominent oral cavity and mandible) have varied effects on lip reading performance for different words and pronunciations, necessitating adaptive enhancement or suppression of the features for robust lip reading. Based on these two observations, we propose to take advantage of the speaker's own characteristics to automatically learn separable hidden unit contributions with different targets for shallow layers and deep layers respectively. For shallow layers where features related to the speaker's characteristics are stronger than the speech content related features, we introduce speaker-adaptive features to learn for enhancing the speech content features. For deep layers where both the speaker's features and the speech content features are all expressed well, we introduce the speaker-adaptive features to learn for suppressing the speech content irrelevant noise for robust lip reading. Our approach consistently outperforms existing methods, as confirmed by comprehensive analysis and comparison across different settings. Besides the evaluation on the popular LRW-ID and GRID datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to further assess the performance in an extreme setting where just a few speakers are available but the speech content covers a large and diversified range.
- Abstract(参考訳): 本稿では,2つの観察から得られた唇読解における話者適応手法を提案する。
第一に、話者自身の特徴は、顔の少ない画像や浅いネットワークを持つ単一の画像によって常にうまく表現できるが、話し手によって表現される音声内容に関連するきめ細かいダイナミックな特徴は、常に正確に表現するために深いシーケンシャルなネットワークを必要とする。
そこで本研究では,話者適応唇読解のための浅層層と深層層を別々に扱う。
第2に, 話者の独特の特徴(例えば, 口蓋腔, 下顎骨)が, 異なる単語や発音に対する唇読取性能に様々な影響を及ぼし, 頑健な唇読取特性の適応的増強や抑制が必要であることを観察した。
これら2つの観測結果から,浅層層と深層層をそれぞれ異なるターゲットで分離可能な隠れ単位の寄与を自動的に学習するために,話者自身の特性を活用することを提案する。
話者の特徴が音声コンテンツ関連特徴よりも強い浅層では,話者適応機能を導入して,音声コンテンツ機能の向上を図る。
話者の特徴と音声内容がすべて良好に表現された深い層に対しては,頑健な唇読解のための無関係な雑音を抑えるために学習する話者適応的特徴を導入する。
提案手法は, 従来手法よりも常に優れており, 包括的分析と異なる設定間の比較によって確認されている。
LRW-ID と GRID データセットの評価に加えて,評価のための新しいデータセット CAS-VSR-S68h もリリースし,少数の話者しか利用できないが音声内容が広範かつ多様化した範囲をカバーしている極端な環境で,その性能を更に評価する。
関連論文リスト
- Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language [48.17930606488952]
唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。
本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:05:12Z) - Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。
話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文 参考訳(メタデータ) (2022-08-09T01:59:30Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。