論文の概要: LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers
- arxiv url: http://arxiv.org/abs/2302.02141v1
- Date: Sat, 4 Feb 2023 10:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:56:34.842567
- Title: LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers
- Title(参考訳): LipFormer:ビジュアルランドマーク変換器による未確認話者のリフレッド学習
- Authors: Feng Xue, Yu Li, Deyin Liu, Yincen Xie, Lin Wu, Richang Hong
- Abstract要約: 重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
- 参考スコア(独自算出の注目度): 43.13868262922689
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Lipreading refers to understanding and further translating the speech of a
speaker in the video into natural language. State-of-the-art lipreading methods
excel in interpreting overlap speakers, i.e., speakers appear in both training
and inference sets. However, generalizing these methods to unseen speakers
incurs catastrophic performance degradation due to the limited number of
speakers in training bank and the evident visual variations caused by the
shape/color of lips for different speakers. Therefore, merely depending on the
visible changes of lips tends to cause model overfitting. To address this
problem, we propose to use multi-modal features across visual and landmarks,
which can describe the lip motion irrespective to the speaker identities. Then,
we develop a sentence-level lipreading framework based on visual-landmark
transformers, namely LipFormer. Specifically, LipFormer consists of a lip
motion stream, a facial landmark stream, and a cross-modal fusion. The
embeddings from the two streams are produced by self-attention, which are fed
to the cross-attention module to achieve the alignment between visuals and
landmarks. Finally, the resulting fused features can be decoded to output texts
by a cascade seq2seq model. Experiments demonstrate that our method can
effectively enhance the model generalization to unseen speakers.
- Abstract(参考訳): lipreadingは、ビデオ中の話者の音声を自然言語に理解し、さらに翻訳することを指す。
state-of-the-art lipreading methodはオーバーラップスピーカーの解釈に優れており、トレーニングセットと推論セットの両方に話者が現れている。
しかし,これらの手法の一般化は,訓練銀行における話者数の制限や,異なる話者に対する唇の形状・色の違いによる視覚的変化により,破滅的な性能劣化を引き起こす。
したがって、唇の目に見える変化によってのみ、モデルオーバーフィットを引き起こす傾向がある。
この問題に対処するために、話者の身元に関係なく唇の動きを記述できる視覚的・ランドマーク横断のマルチモーダル機能を提案する。
次に,視覚ランドマークトランスフォーマー,すなわちリップフォーマーに基づく文レベルのリップリードフレームワークを開発した。
特に、リップフォーマーは、唇の動きの流れ、顔のランドマークの流れ、および交叉モーダル融合からなる。
2つのストリームからの埋め込みは、視覚とランドマークの調整を達成するためにクロスアテンションモジュールに供給される自己アテンションによって生成される。
最後に、得られた融合機能は、カスケードSeq2seqモデルで出力テキストにデコードできる。
実験により,本手法は未知話者へのモデル一般化を効果的に促進できることが示された。
関連論文リスト
- Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language [48.17930606488952]
唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。
本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:05:12Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。
話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文 参考訳(メタデータ) (2022-08-09T01:59:30Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Deformation Flow Based Two-Stream Network for Lip Reading [90.61063126619182]
唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
論文 参考訳(メタデータ) (2020-03-12T11:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。