論文の概要: Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip
Reading
- arxiv url: http://arxiv.org/abs/2204.01725v1
- Date: Mon, 4 Apr 2022 06:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:37:41.767018
- Title: Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip
Reading
- Title(参考訳): マルチヘッドビジュアルオーディオメモリを用いた唇読解のためのホモフェロンの除去
- Authors: Minsu Kim, Jeong Hun Yeo, Yong Man Ro
- Abstract要約: 口唇読解と呼ばれる無声唇運動からの発声を認識することは,1) 口唇運動の本質的情報不足が,2) 口唇運動と発音の相違が相似するホモフェーンの存在から,難易度の高い課題である。
本稿では,MVM(Multi-head Visual-audio Memory)を提案することによって,上述の唇読解における2つの課題を軽減することを試みる。
MVMはオーディオビジュアルデータセットでトレーニングされ、ペア化されたオーディオビジュアル表現の相互関係をモデル化することで、オーディオ表現を記憶する。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing speech from silent lip movement, which is called lip reading, is
a challenging task due to 1) the inherent information insufficiency of lip
movement to fully represent the speech, and 2) the existence of homophenes that
have similar lip movement with different pronunciations. In this paper, we try
to alleviate the aforementioned two challenges in lip reading by proposing a
Multi-head Visual-audio Memory (MVM). Firstly, MVM is trained with audio-visual
datasets and remembers audio representations by modelling the
inter-relationships of paired audio-visual representations. At the inference
stage, visual input alone can extract the saved audio representation from the
memory by examining the learned inter-relationships. Therefore, the lip reading
model can complement the insufficient visual information with the extracted
audio representations. Secondly, MVM is composed of multi-head key memories for
saving visual features and one value memory for saving audio knowledge, which
is designed to distinguish the homophenes. With the multi-head key memories,
MVM extracts possible candidate audio features from the memory, which allows
the lip reading model to consider the possibility of which pronunciations can
be represented from the input lip movement. This also can be viewed as an
explicit implementation of the one-to-many mapping of viseme-to-phoneme.
Moreover, MVM is employed in multi-temporal levels to consider the context when
retrieving the memory and distinguish the homophenes. Extensive experimental
results verify the effectiveness of the proposed method in lip reading and in
distinguishing the homophenes.
- Abstract(参考訳): 唇読解と呼ばれる無声唇運動からの発声認識は, 難易度の高い課題である。
1) 言論を完全に表現する唇運動の本来の情報不足、及び
2) 発音の異なる類似した唇運動を有するホモフェーンの存在。
本稿では,マルチヘッド・ビジュアルオーディオメモリ(mvm)を提案することにより,口唇読解における2つの課題を緩和する。
まず、MVMはオーディオ視覚データセットでトレーニングされ、ペア化されたオーディオ視覚表現の相互関係をモデル化することで、オーディオ表現を記憶する。
推論段階では、学習した相互関係を調べることで、視覚入力だけでメモリから保存された音声表現を抽出することができる。
したがって、リップ読み取りモデルは、抽出した音声表現で不十分な視覚情報を補完することができる。
第二に、MVMは視覚的特徴を保存するためのマルチヘッドキーメモリと、ホモフェーンを識別するために設計された音声知識を保存するための1値メモリで構成されている。
マルチヘッドキーメモリでは、mvmはメモリから候補音声の特徴を抽出することで、入力された唇の動きからどの発音を表現できるかをリップ読み取りモデルで検討することができる。
これはビセメ対音素の1対多マッピングの明示的な実装と見なすこともできる。
さらに、MVMは、メモリを取得する際のコンテキストを考慮し、ホモフェーンを区別するために、複数の時間レベルで使用される。
実験結果により, 唇読解法の有効性とホモフェーンの識別効果が検証された。
関連論文リスト
- Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Multi-Temporal Lip-Audio Memory for Visual Speech Recognition [32.65865343643458]
MTLAM(Multi-Temporal Lip-Audio Memory)を提案する。
提案手法は主に2つの部分から構成される: 1) MTLAMは、短期および長期の音声信号から発生する多時間音声特徴を保存し、MTLAMは、推測フェーズにおける視覚的特徴から記憶された多時間音声特徴をロードするための視覚音声マッピングを記憶する。
論文 参考訳(メタデータ) (2023-05-08T08:30:52Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。