論文の概要: Mutual Information Maximization for Effective Lip Reading
- arxiv url: http://arxiv.org/abs/2003.06439v1
- Date: Fri, 13 Mar 2020 18:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:59:40.869307
- Title: Mutual Information Maximization for Effective Lip Reading
- Title(参考訳): 効果的な口唇読解のための相互情報最大化
- Authors: Xing Zhao and Shuang Yang and Shiguang Shan and Xilin Chen
- Abstract要約: 本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
- 参考スコア(独自算出の注目度): 99.11600901751673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip reading has received an increasing research interest in recent years due
to the rapid development of deep learning and its widespread potential
applications. One key point to obtain good performance for the lip reading task
depends heavily on how effective the representation can be to capture the lip
movement information and meanwhile to resist the noises resulted from the
change of pose, lighting conditions, speaker's appearance and so on. Towards
this target, we propose to introduce the mutual information constraints on both
the local feature's level and the global sequence's level to enhance the
relations of the features with the speech content. On the one hand, we
constraint the features generated at each time step to enable them carry a
strong relation with the speech content by imposing the local mutual
information maximization constraint (LMIM), leading to improvements over the
model's ability to discover fine-grained lip movements and the fine-grained
differences among words with similar pronunciation, such as ``spend'' and
``spending''. On the other hand, we introduce the mutual information
maximization constraint on the global sequence's level (GMIM), to make the
model be able to pay more attention to discriminate key frames related with the
speech content, and less to various noises appeared in the speaking process. By
combining these two advantages together, the proposed method is expected to be
both discriminative and robust for effective lip reading. To verify this
method, we evaluate on two large-scale benchmark. We perform a detailed
analysis and comparison on several aspects, including the comparison of the
LMIM and GMIM with the baseline, the visualization of the learned
representation and so on. The results not only prove the effectiveness of the
proposed method but also report new state-of-the-art performance on both the
two benchmarks.
- Abstract(参考訳): 近年, 深層学習の急速な発展と応用の可能性から, リップリーディング研究への関心が高まっている。
唇読取作業における優れたパフォーマンスを得るための重要なポイントは, 唇の動き情報を取得することや, ポーズの変化, 照明条件, 話者の外観などによる騒音に抵抗できることに大きく依存する。
そこで本研究では,特徴と音声コンテンツとの関係を高めるために,局所特徴レベルとグローバルシーケンスレベルの両方の相互情報制約を導入することを提案する。
一方,局所的相互情報最大化制約(lmim)を課すことで,各時間ステップで生成した特徴を音声コンテンツとの強い関係性を持たせるために制約し,「spend」や「spending」といった発音に類似した単語間の細かな唇運動や細粒度の違いをモデルで発見する能力の向上に繋がる。
一方,グローバルシーケンスのレベル(GMIM)における相互情報最大化制約を導入し,音声内容に関連するキーフレームの識別により多くの注意を払うことができるようにし,発話過程に現れる様々なノイズを低減させる。
これら2つの利点を組み合わせることで,本手法は効果的な唇読解のための識別性と堅牢性の両方を期待できる。
この方法を検証するため,2つの大規模ベンチマークで評価を行った。
我々は,LMIMとGMIMのベースラインとの比較,学習表現の可視化など,いくつかの側面について詳細な分析と比較を行う。
その結果,提案手法の有効性を実証するだけでなく,両ベンチマークにおける最新性能を報告した。
関連論文リスト
- Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Multi-Modal Multi-Correlation Learning for Audio-Visual Speech
Separation [38.75352529988137]
音声・視覚的音声分離作業を対象としたマルチモーダル・マルチ相関学習フレームワークを提案する。
我々は,(1)識別相関(音色と顔の属性間の相関),(2)音声相関という2つの重要な相関関係を定義した。
この2つの相関関係を最大化するために,コントラスト学習法や逆学習法を適用した。
論文 参考訳(メタデータ) (2022-07-04T04:53:39Z) - Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild [17.471128300990244]
本稿では,xxxによりモチベーションされたAttnWav2Lipモデルについて,空間アテンションモジュールとチャネルアテンションモジュールをリップ同期戦略に組み込むことにより提案する。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
論文 参考訳(メタデータ) (2022-03-08T10:18:25Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z) - The effectiveness of unsupervised subword modeling with autoregressive
and cross-lingual phone-aware networks [36.24509775775634]
自己監督学習と多言語知識伝達を組み合わせた2段階学習フレームワークを提案する。
Libri-lightおよびZeroSpeech 2017データベースで実施したABXサブワード識別性タスクの実験により、我々のアプローチは最先端の研究よりも競争力があるか優れていることが示された。
論文 参考訳(メタデータ) (2020-12-17T12:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。