論文の概要: Learning Separable Hidden Unit Contributions for Speaker-Adaptive
Lip-Reading
- arxiv url: http://arxiv.org/abs/2310.05058v1
- Date: Sun, 8 Oct 2023 07:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:54:23.147619
- Title: Learning Separable Hidden Unit Contributions for Speaker-Adaptive
Lip-Reading
- Title(参考訳): 話者適応型口唇読解のための分離可能な隠れ単位寄与の学習
- Authors: Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen
- Abstract要約: 話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 80.39752747244047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method for speaker adaptation in lip
reading, motivated by two observations. Firstly, a speaker's own
characteristics can always be portrayed well by his/her few facial images or
even a single image with shallow networks, while the fine-grained dynamic
features associated with speech content expressed by the talking face always
need deep sequential networks to represent accurately. Therefore, we treat the
shallow and deep layers differently for speaker adaptive lip reading. Secondly,
we observe that a speaker's unique characteristics ( e.g. prominent oral cavity
and mandible) have varied effects on lip reading performance for different
words and pronunciations, necessitating adaptive enhancement or suppression of
the features for robust lip reading. Based on these two observations, we
propose to take advantage of the speaker's own characteristics to automatically
learn separable hidden unit contributions with different targets for shallow
layers and deep layers respectively. For shallow layers where features related
to the speaker's characteristics are stronger than the speech content related
features, we introduce speaker-adaptive features to learn for enhancing the
speech content features. For deep layers where both the speaker's features and
the speech content features are all expressed well, we introduce the
speaker-adaptive features to learn for suppressing the speech content
irrelevant noise for robust lip reading. Our approach consistently outperforms
existing methods, as confirmed by comprehensive analysis and comparison across
different settings. Besides the evaluation on the popular LRW-ID and GRID
datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to
further assess the performance in an extreme setting where just a few speakers
are available but the speech content covers a large and diversified range.
- Abstract(参考訳): 本稿では,2つの観察結果に動機づけられた唇読解における話者適応法を提案する。
第一に、話者自身の特徴は、顔の少ない画像や浅いネットワークを持つ単一の画像によって常にうまく表現できるが、話し手によって表現される音声内容に関連するきめ細かいダイナミックな特徴は、常に正確に表現するために深いシーケンシャルなネットワークを必要とする。
そこで,我々は浅い層と深い層を話者適応型口唇読解のために異なる扱いをする。
第2に, 話者の独特の特徴(例えば, 口蓋腔, 下顎骨など)が, 異なる単語や発音に対する唇読取性能に様々な影響を与え, 頑健な唇読取特性の適応的増強や抑制が必要であることを観察した。
これら2つの観察に基づいて,話者の特性を生かして,それぞれ浅い層と深い層を対象とする分離可能な隠れ単位寄与を自動的に学習することを提案する。
音声コンテンツの特徴に関する特徴が音声コンテンツ関連特徴よりも強い浅い層に対して,音声コンテンツ機能の向上のために,話者適応機能を導入する。
話者の特徴と音声内容がすべて良好に表現された深い層に対しては,頑健な唇読解のための無関係な雑音を抑えるための話者適応的特徴を導入する。
総合的な分析と比較によって確認されるように,提案手法は既存の手法を一貫して上回っている。
LRW-ID と GRID データセットの評価に加えて,評価のための新しいデータセット CAS-VSR-S68h もリリースし,少数の話者しか利用できないが音声内容が広範かつ多様化した範囲をカバーしている極端な環境で,その性能をさらに評価する。
関連論文リスト
- Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language [48.17930606488952]
唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。
本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:05:12Z) - Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。
話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文 参考訳(メタデータ) (2022-08-09T01:59:30Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。