論文の概要: A Study on Lip Localization Techniques used for Lip reading from a Video
- arxiv url: http://arxiv.org/abs/2009.13420v1
- Date: Mon, 28 Sep 2020 15:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:51:33.522134
- Title: A Study on Lip Localization Techniques used for Lip reading from a Video
- Title(参考訳): ビデオからの唇読解における唇局所化手法の検討
- Authors: S.D. Lalitha, K.K. Thyagharajan
- Abstract要約: 唇読取は、音声認識において、音声が欠落している、あるいはノイズがない、あるいはノイズのない場合に有用である。
この技術は非対称な唇にも応用でき、口には目に見える歯、舌と口には口ひげがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper some of the different techniques used to localize the lips from
the face are discussed and compared along with its processing steps. Lip
localization is the basic step needed to read the lips for extracting visual
information from the video input. The techniques could be applied on asymmetric
lips and also on the mouth with visible teeth, tongue & mouth with moustache.
In the process of Lip reading the following steps are generally used. They are,
initially locating lips in the first frame of the video input, then tracking
the lips in the following frames using the resulting pixel points of initial
step and at last converting the tracked lip model to its corresponding matched
letter to give the visual information. A new proposal is also initiated from
the discussed techniques. The lip reading is useful in Automatic Speech
Recognition when the audio is absent or present low with or without noise in
the communication systems. Human Computer communication also will require
speech recognition.
- Abstract(参考訳): 本稿では,顔から唇を局所化する手法のいくつかについて検討し,その処理手順と対比する。
唇の位置は、ビデオ入力から視覚情報を抽出するために唇を読むために必要な基本的なステップである。
この技術は、非対称な唇や、目に見える歯、舌、口ひげを持つ口にも応用できる。
リップ読みの過程では、一般的に以下の手順が用いられる。
最初はビデオ入力の最初のフレームに唇を配置し、その後、最初のステップのピクセルポイントを用いて次のフレームで唇を追跡し、最後に追跡された唇モデルを対応する文字に変換して視覚情報を与える。
議論された手法から新しい提案も開始される。
このリップ読みは、通信システムにおいて、音声が欠落したり低音であったりした場合に、自動音声認識において有用である。
人間のコンピュータ通信も音声認識を必要とする。
関連論文リスト
- Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [64.14812728562596]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Is Lip Region-of-Interest Sufficient for Lipreading? [24.294559985408192]
自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
論文 参考訳(メタデータ) (2022-05-28T01:34:24Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z) - Lip reading using external viseme decoding [4.728757318184405]
本稿では,ビデオからキャラクタへの分割により,外部テキストデータ(viseme-to-character mapping)の活用方法を示す。
提案手法では,BBC-Oxford Lip Reading Sentences 2データセットの順序唇読取モデルと比較し,単語誤り率を4%改善した。
論文 参考訳(メタデータ) (2021-04-10T14:49:11Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z) - Deformation Flow Based Two-Stream Network for Lip Reading [90.61063126619182]
唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
論文 参考訳(メタデータ) (2020-03-12T11:13:44Z) - Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition [90.61063126619182]
我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
論文 参考訳(メタデータ) (2020-03-06T13:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。