論文の概要: Leveraging Visemes for Better Visual Speech Representation and Lip
Reading
- arxiv url: http://arxiv.org/abs/2307.10157v1
- Date: Wed, 19 Jul 2023 17:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:08:58.956197
- Title: Leveraging Visemes for Better Visual Speech Representation and Lip
Reading
- Title(参考訳): visemeを活用した視覚表現と唇読取の改善
- Authors: Javad Peymanfard, Vahid Saeedi, Mohammad Reza Mohammadi, Hossein
Zeinali, Nasser Mozayani
- Abstract要約: そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
- 参考スコア(独自算出の注目度): 2.7836084563851284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip reading is a challenging task that has many potential applications in
speech recognition, human-computer interaction, and security systems. However,
existing lip reading systems often suffer from low accuracy due to the
limitations of video features. In this paper, we propose a novel approach that
leverages visemes, which are groups of phonetically similar lip shapes, to
extract more discriminative and robust video features for lip reading. We
evaluate our approach on various tasks, including word-level and sentence-level
lip reading, and audiovisual speech recognition using the Arman-AV dataset, a
largescale Persian corpus. Our experimental results show that our viseme based
approach consistently outperforms the state-of-theart methods in all these
tasks. The proposed method reduces the lip-reading word error rate (WER) by
9.1% relative to the best previous method.
- Abstract(参考訳): リップリーディングは、音声認識、人間とコンピュータのインタラクション、セキュリティシステムにおいて、多くの潜在的な応用がある課題である。
しかし,既存の唇読解システムでは,ビデオ機能に制限があるため,精度が低い場合が多い。
本稿では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
我々は,大規模ペルシャ語コーパスであるArman-AVデータセットを用いて,単語レベルと文レベルの唇読解,音声視覚音声認識など,様々な課題に対するアプローチを評価する。
実験結果から,我々のビセメベースアプローチは,これらの課題すべてにおいて,最先端の手法よりも一貫して優れていることがわかった。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
関連論文リスト
- Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Is Lip Region-of-Interest Sufficient for Lipreading? [24.294559985408192]
自己教師型学習によるリップリーディングに顔全体を採用することを提案する。
AV-HuBERTというマルチモーダルな自己教師型学習フレームワークを実験で採用した。
論文 参考訳(メタデータ) (2022-05-28T01:34:24Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。
我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。
そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-17T10:29:19Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep
Visual Speech Recognition [90.61063126619182]
我々は、最先端の音声認識モデルを用いて、異なる顔領域の効果を評価する。
口腔外顔面領域からの情報、上面でさえも、常にVSRの性能に寄与することが判明した。
論文 参考訳(メタデータ) (2020-03-06T13:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。