論文の概要: Lip reading using external viseme decoding
- arxiv url: http://arxiv.org/abs/2104.04784v1
- Date: Sat, 10 Apr 2021 14:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:15:00.859885
- Title: Lip reading using external viseme decoding
- Title(参考訳): 外部ビセムデコードを用いた唇読解法
- Authors: Javad Peymanfard, Mohammad Reza Mohammadi, Hossein Zeinali and Nasser
Mozayani
- Abstract要約: 本稿では,ビデオからキャラクタへの分割により,外部テキストデータ(viseme-to-character mapping)の活用方法を示す。
提案手法では,BBC-Oxford Lip Reading Sentences 2データセットの順序唇読取モデルと比較し,単語誤り率を4%改善した。
- 参考スコア(独自算出の注目度): 4.728757318184405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-reading is the operation of recognizing speech from lip movements. This
is a difficult task because the movements of the lips when pronouncing the
words are similar for some of them. Viseme is used to describe lip movements
during a conversation. This paper aims to show how to use external text data
(for viseme-to-character mapping) by dividing video-to-character into two
stages, namely converting video to viseme, and then converting viseme to
character by using separate models. Our proposed method improves word error
rate by 4\% compared to the normal sequence to sequence lip-reading model on
the BBC-Oxford Lip Reading Sentences 2 (LRS2) dataset.
- Abstract(参考訳): 唇読みは唇の動きから発声を認識する操作である。
これは、単語を発音する際の唇の動きが類似しているため、難しい作業である。
visemeは会話中の唇の動きを記述するのに使われる。
本稿では,ビデオからキャラクタへの変換を2段階に分割し,ビセメから文字への変換を別モデルで行うことにより,外部テキストデータ(ビセメからキャラクタへのマッピング)の活用方法を示す。
提案手法は, bbc-oxford lip reading sentences 2 (lrs2) データセットにおいて, 単語誤り率を正規列と比較して4\%向上させる。
関連論文リスト
- Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - A Multimodal German Dataset for Automatic Lip Reading Systems and
Transfer Learning [18.862801476204886]
我々は、ヘッセン議会の演説者の顔に関する25万の公開ビデオからなるデータセットGLips(ドイツ語のリップス)を提示する。
このフォーマットは英語のLRW(Lip Reading in the Wild)データセットと似ており、各ビデオは1ワードの興味を1.16秒の文脈で符号化している。
深層ニューラルネットワークを訓練することにより, 唇読解に言語に依存しない特徴があるかどうかを調べ, 唇読解モデルを改善するために, 異なる言語のデータセットを使うことができる。
論文 参考訳(メタデータ) (2022-02-27T17:37:35Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z) - A Study on Lip Localization Techniques used for Lip reading from a Video [0.0]
唇読取は、音声認識において、音声が欠落している、あるいはノイズがない、あるいはノイズのない場合に有用である。
この技術は非対称な唇にも応用でき、口には目に見える歯、舌と口には口ひげがある。
論文 参考訳(メタデータ) (2020-09-28T15:36:35Z) - Deformation Flow Based Two-Stream Network for Lip Reading [90.61063126619182]
唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
論文 参考訳(メタデータ) (2020-03-12T11:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。