論文の概要: Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention
- arxiv url: http://arxiv.org/abs/2012.14360v1
- Date: Mon, 28 Dec 2020 16:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 10:55:39.890361
- Title: Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention
- Title(参考訳): 階層的ピラミッド畳み込みと自己注意による唇読解
- Authors: Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Chin-Hui Lee, Bao-Cai Yin
- Abstract要約: 唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
- 参考スコア(独自算出の注目度): 98.52189797347354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel deep learning architecture to improving
word-level lip-reading. On the one hand, we first introduce the multi-scale
processing into the spatial feature extraction for lip-reading. Specially, we
proposed hierarchical pyramidal convolution (HPConv) to replace the standard
convolution in original module, leading to improvements over the model's
ability to discover fine-grained lip movements. On the other hand, we merge
information in all time steps of the sequence by utilizing self-attention, to
make the model pay more attention to the relevant frames. These two advantages
are combined together to further enhance the model's classification power.
Experiments on the Lip Reading in the Wild (LRW) dataset show that our proposed
model has achieved 86.83% accuracy, yielding 1.53% absolute improvement over
the current state-of-the-art. We also conducted extensive experiments to better
understand the behavior of the proposed model.
- Abstract(参考訳): 本稿では,単語レベルの唇読解を改善するための新しいディープラーニングアーキテクチャを提案する。
一方,我々はまず,唇読解のための空間特徴抽出にマルチスケール処理を導入する。
特に,原モジュールの標準畳み込みを代替する階層的ピラミッド畳み込み (HPConv) を提案し, より微細な唇運動の発見能力の向上に寄与した。
一方,自己着脱を利用して,時系列のすべての時間ステップで情報をマージし,モデルが関連するフレームにもっと注意を払うようにした。
これら2つの利点を組み合わせて、モデルの分類能力をさらに強化する。
野生(lrw)のリップリーディング実験では,提案モデルが86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
また,提案モデルの振る舞いをよりよく理解するための広範な実験を行った。
関連論文リスト
- Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。
本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation
in the Wild [17.471128300990244]
本稿では,xxxによりモチベーションされたAttnWav2Lipモデルについて,空間アテンションモジュールとチャネルアテンションモジュールをリップ同期戦略に組み込むことにより提案する。
限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。
論文 参考訳(メタデータ) (2022-03-08T10:18:25Z) - UnitedQA: A Hybrid Approach for Open Domain Question Answering [70.54286377610953]
最近の訓練済みのニューラル言語モデルに基づいて,抽出的および生成的読取能力を高めるために,新しい手法を適用した。
私たちのアプローチは、それぞれNaturalQuestionsとTriviaQAと正確な一致で、以前の最先端のモデルを3.3と2.7ポイント上回る。
論文 参考訳(メタデータ) (2021-01-01T06:36:16Z) - Learn an Effective Lip Reading Model without Pains [96.21025771586159]
視覚的音声認識としても知られるリップ読み取りは、リップダイナミックスを解析することにより、ビデオから音声の内容を認識することを目的としている。
既存のほとんどの手法は、複雑なニューラルネットワークを構築することで高い性能を得た。
これらの戦略を適切に活用することは、モデルの大部分を変更することなく、常にエキサイティングな改善をもたらす可能性があることに気付きました。
論文 参考訳(メタデータ) (2020-11-15T15:29:19Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。