論文の概要: Deformation Flow Based Two-Stream Network for Lip Reading
- arxiv url: http://arxiv.org/abs/2003.05709v2
- Date: Fri, 13 Mar 2020 00:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:07:32.507727
- Title: Deformation Flow Based Two-Stream Network for Lip Reading
- Title(参考訳): 口唇読解のための変形流れに基づく2ストリームネットワーク
- Authors: Jingyun Xiao, Shuang Yang, Yuanhang Zhang, Shiguang Shan, Xilin Chen
- Abstract要約: 唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
- 参考スコア(独自算出の注目度): 90.61063126619182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip reading is the task of recognizing the speech content by analyzing
movements in the lip region when people are speaking. Observing on the
continuity in adjacent frames in the speaking process, and the consistency of
the motion patterns among different speakers when they pronounce the same
phoneme, we model the lip movements in the speaking process as a sequence of
apparent deformations in the lip region. Specifically, we introduce a
Deformation Flow Network (DFN) to learn the deformation flow between adjacent
frames, which directly captures the motion information within the lip region.
The learned deformation flow is then combined with the original grayscale
frames with a two-stream network to perform lip reading. Different from
previous two-stream networks, we make the two streams learn from each other in
the learning process by introducing a bidirectional knowledge distillation loss
to train the two branches jointly. Owing to the complementary cues provided by
different branches, the two-stream network shows a substantial improvement over
using either single branch. A thorough experimental evaluation on two
large-scale lip reading benchmarks is presented with detailed analysis. The
results accord with our motivation, and show that our method achieves
state-of-the-art or comparable performance on these two challenging datasets.
- Abstract(参考訳): 口唇読解は、発話中の口唇領域の動きを分析して音声内容を認識する作業である。
発話過程における隣接フレームの連続性と、同一音素を発音する際の異なる話者間の動きパターンの一貫性を観察し、発話過程における唇運動を唇領域における明らかな変形の列としてモデル化する。
具体的には,隣接フレーム間の変形流れを学習するための変形フローネットワーク(dfn)を導入し,リップ領域内の動き情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
従来の2つのストリームネットワークとは違って,双方向の知識蒸留損失を導入することで,学習過程において2つのストリームを相互に学習させる。
異なるブランチによって提供される補完的なキューにより、2ストリームネットワークはいずれのブランチを使用するよりも大幅に改善されている。
2つの大規模唇読解ベンチマークの詳細な実験結果について,詳細な分析を行った。
結果は我々のモチベーションに合致し、この2つの挑戦的データセットで最新の性能または同等の性能を達成できることを示しました。
関連論文リスト
- Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Improving Ultrasound Tongue Image Reconstruction from Lip Images Using
Self-supervised Learning and Attention Mechanism [1.52292571922932]
唇の観察可能な画像列が与えられたら、対応する舌の動きを画像化できますか。
本研究では,この問題を自己教師型学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用い,注意機構を組み込んだ。
以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,両者のマッチングが可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-20T10:51:23Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Lip reading using external viseme decoding [4.728757318184405]
本稿では,ビデオからキャラクタへの分割により,外部テキストデータ(viseme-to-character mapping)の活用方法を示す。
提案手法では,BBC-Oxford Lip Reading Sentences 2データセットの順序唇読取モデルと比較し,単語誤り率を4%改善した。
論文 参考訳(メタデータ) (2021-04-10T14:49:11Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。