論文の概要: A Study on Lip Localization Techniques used for Lip reading from a Video
- arxiv url: http://arxiv.org/abs/2009.13420v1
- Date: Mon, 28 Sep 2020 15:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:51:33.522134
- Title: A Study on Lip Localization Techniques used for Lip reading from a Video
- Title(参考訳): ビデオからの唇読解における唇局所化手法の検討
- Authors: S.D. Lalitha, K.K. Thyagharajan
- Abstract要約: 唇読取は、音声認識において、音声が欠落している、あるいはノイズがない、あるいはノイズのない場合に有用である。
この技術は非対称な唇にも応用でき、口には目に見える歯、舌と口には口ひげがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper some of the different techniques used to localize the lips from
the face are discussed and compared along with its processing steps. Lip
localization is the basic step needed to read the lips for extracting visual
information from the video input. The techniques could be applied on asymmetric
lips and also on the mouth with visible teeth, tongue & mouth with moustache.
In the process of Lip reading the following steps are generally used. They are,
initially locating lips in the first frame of the video input, then tracking
the lips in the following frames using the resulting pixel points of initial
step and at last converting the tracked lip model to its corresponding matched
letter to give the visual information. A new proposal is also initiated from
the discussed techniques. The lip reading is useful in Automatic Speech
Recognition when the audio is absent or present low with or without noise in
the communication systems. Human Computer communication also will require
speech recognition.
- Abstract(参考訳): 本稿では,顔から唇を局所化する手法のいくつかについて検討し,その処理手順と対比する。
唇の位置は、ビデオ入力から視覚情報を抽出するために唇を読むために必要な基本的なステップである。
この技術は、非対称な唇や、目に見える歯、舌、口ひげを持つ口にも応用できる。
リップ読みの過程では、一般的に以下の手順が用いられる。
最初はビデオ入力の最初のフレームに唇を配置し、その後、最初のステップのピクセルポイントを用いて次のフレームで唇を追跡し、最後に追跡された唇モデルを対応する文字に変換して視覚情報を与える。
議論された手法から新しい提案も開始される。
このリップ読みは、通信システムにおいて、音声が欠落したり低音であったりした場合に、自動音声認識において有用である。
人間のコンピュータ通信も音声認識を必要とする。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Is Lip Region-of-Interest Sufficient for Lipreading? [24.294559985408192]
自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
論文 参考訳(メタデータ) (2022-05-28T01:34:24Z) - Lip reading using external viseme decoding [4.728757318184405]
本稿では,ビデオからキャラクタへの分割により,外部テキストデータ(viseme-to-character mapping)の活用方法を示す。
提案手法では,BBC-Oxford Lip Reading Sentences 2データセットの順序唇読取モデルと比較し,単語誤り率を4%改善した。
論文 参考訳(メタデータ) (2021-04-10T14:49:11Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z) - Deformation Flow Based Two-Stream Network for Lip Reading [90.61063126619182]
唇読解とは、人が話しているときの唇領域の動きを分析して、音声の内容を認識するタスクである。
発話過程における隣り合うフレームの連続性と、同じ音素を発音する場合の異なる話者間の動きパターンの一致を観察する。
本研究では,隣接するフレーム間の変形流を学習するために変形流ネットワーク(DFN)を導入し,唇領域内の運動情報を直接キャプチャする。
そして、学習した変形流を元のグレースケールフレームと2ストリームネットワークに結合して唇読取を行う。
論文 参考訳(メタデータ) (2020-03-12T11:13:44Z) - Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition [90.61063126619182]
我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
論文 参考訳(メタデータ) (2020-03-06T13:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。