論文の概要: Lipreading using Temporal Convolutional Networks
- arxiv url: http://arxiv.org/abs/2001.08702v1
- Date: Thu, 23 Jan 2020 17:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:30:57.008715
- Title: Lipreading using Temporal Convolutional Networks
- Title(参考訳): 時間畳み込みネットワークを用いたリリーディング
- Authors: Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic
- Abstract要約: 現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
- 参考スコア(独自算出の注目度): 57.41253104365274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-reading has attracted a lot of research attention lately thanks to
advances in deep learning. The current state-of-the-art model for recognition
of isolated words in-the-wild consists of a residual network and Bidirectional
Gated Recurrent Unit (BGRU) layers. In this work, we address the limitations of
this model and we propose changes which further improve its performance.
Firstly, the BGRU layers are replaced with Temporal Convolutional Networks
(TCN). Secondly, we greatly simplify the training procedure, which allows us to
train the model in one single stage. Thirdly, we show that the current
state-of-the-art methodology produces models that do not generalize well to
variations on the sequence length, and we addresses this issue by proposing a
variable-length augmentation. We present results on the largest
publicly-available datasets for isolated word recognition in English and
Mandarin, LRW and LRW1000, respectively. Our proposed model results in an
absolute improvement of 1.2% and 3.2%, respectively, in these datasets which is
the new state-of-the-art performance.
- Abstract(参考訳): 最近、深層学習の進歩により、リップリーディングが多くの研究の注目を集めている。
現在最先端の単語認識モデルは、残差ネットワークと双方向Gated Recurrent Unit(BGRU)層から構成されている。
本稿では,本モデルの限界に対処し,その性能をさらに向上させる変更を提案する。
まず、BGRU層は一時畳み込みネットワーク(TCN)に置き換えられる。
第二に、トレーニング手順を大幅に単純化し、1つの段階でモデルをトレーニングできるようにします。
第3に、現在最先端の手法は、シーケンス長の変動によく適応しないモデルを生成することを示し、可変長拡張を提案してこの問題に対処する。
本稿では,英語における孤立語認識のための最大公用データセットと,マンダリン,LRW,LRW1000について述べる。
提案モデルでは,これらのデータセットでそれぞれ1.2%と3.2%の絶対的な改善が達成された。
関連論文リスト
- Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - DTW-Merge: A Novel Data Augmentation Technique for Time Series
Classification [6.091096843566857]
本稿では,動的時間ワーピングに基づく時系列の新たなデータ拡張手法を提案する。
提案されたアプローチを最近紹介したResNetは、2018年のUCR時系列分類アーカイブで結果の改善を明らかにしている。
論文 参考訳(メタデータ) (2021-03-01T16:40:47Z) - Lip-reading with Hierarchical Pyramidal Convolution and Self-Attention [98.52189797347354]
唇読解のための空間特徴抽出にマルチスケール処理を導入する。
セルフアテンションを活用して、シーケンスのすべてのステップで情報をマージします。
提案モデルは86.83%の精度を達成し,現状よりも1.53%の絶対的改善が得られた。
論文 参考訳(メタデータ) (2020-12-28T16:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。