論文の概要: Lip-reading with Densely Connected Temporal Convolutional Networks
- arxiv url: http://arxiv.org/abs/2009.14233v3
- Date: Thu, 29 Sep 2022 14:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:46:52.634117
- Title: Lip-reading with Densely Connected Temporal Convolutional Networks
- Title(参考訳): 密結合型時間畳み込みネットワークによる唇読解
- Authors: Pingchuan Ma, Yujiang Wang, Jie Shen, Stavros Petridis, Maja Pantic
- Abstract要約: 本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
- 参考スコア(独自算出の注目度): 61.66144695679362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present the Densely Connected Temporal Convolutional Network
(DC-TCN) for lip-reading of isolated words. Although Temporal Convolutional
Networks (TCN) have recently demonstrated great potential in many vision tasks,
its receptive fields are not dense enough to model the complex temporal
dynamics in lip-reading scenarios. To address this problem, we introduce dense
connections into the network to capture more robust temporal features.
Moreover, our approach utilises the Squeeze-and-Excitation block, a
light-weight attention mechanism, to further enhance the model's classification
power. Without bells and whistles, our DC-TCN method has achieved 88.36%
accuracy on the Lip Reading in the Wild (LRW) dataset and 43.65% on the
LRW-1000 dataset, which has surpassed all the baseline methods and is the new
state-of-the-art on both datasets.
- Abstract(参考訳): そこで本研究では,Densely Connected Temporal Convolutional Network (DC-TCN) について述べる。
時相畳み込みネットワーク(TCN)は近年、多くの視覚タスクにおいて大きな可能性を示しているが、その受容場は、唇読解シナリオにおける複雑な時間的ダイナミクスをモデル化するのに十分ではない。
この問題に対処するために,ネットワークへの密接な接続を導入し,より堅牢な時間的特徴を捉える。
さらに,本手法では,重み付け機構であるSqueeze-and-Excitationブロックを利用して,モデルの分類能力をさらに向上する。
ベルとホイッスルがなければ、我々のDC-TCN法は、Lip Reading in the Wild (LRW)データセットで88.36%、LRW-1000データセットで43.65%の精度を達成した。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Leveraging Low-Rank and Sparse Recurrent Connectivity for Robust
Closed-Loop Control [63.310780486820796]
繰り返し接続のパラメータ化が閉ループ設定のロバスト性にどのように影響するかを示す。
パラメータが少ないクローズドフォーム連続時間ニューラルネットワーク(CfCs)は、フルランクで完全に接続されたニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-10-05T21:44:18Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Utterance Weighted Multi-Dilation Temporal Convolutional Networks for
Monaural Speech Dereverberation [26.94528951545861]
時間的畳み込みネットワーク(TCN)における標準深度分割畳み込みを置き換えるため、重み付き多重ディレーション深度分離畳み込みを提案する。
この重み付き多重拡散時間畳み込みネットワーク(WD-TCN)は、様々なモデル構成において、TCNを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-17T15:56:31Z) - Hybrid Backpropagation Parallel Reservoir Networks [8.944918753413827]
本稿では,貯水池のランダムな時間的特徴と深層ニューラルネットワークの読み出し能力と,バッチ正規化を併用した新しいハイブリッドネットワークを提案する。
我々の新しいネットワークはLSTMやGRUよりも優れていることを示す。
また, HBP-ESN M-Ring と呼ばれる新しいメタリング構造を組み込むことで, 1つの大きな貯水池に類似した性能を実現し, メモリ容量の最大化を図っている。
論文 参考訳(メタデータ) (2020-10-27T21:03:35Z) - Depth Enables Long-Term Memory for Recurrent Neural Networks [0.0]
本稿では,スタートエンド分離ランク(Start-End separation rank)と呼ばれる時間的情報フローを支援するネットワークの能力を評価する。
より深い再帰的ネットワークは、浅いネットワークで支えられるものよりも高いスタートエンド分離ランクをサポートすることを証明している。
論文 参考訳(メタデータ) (2020-03-23T10:29:14Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。