論文の概要: TD3Net: A Temporal Densely Connected Multi-Dilated Convolutional Network for Lipreading
- arxiv url: http://arxiv.org/abs/2506.16073v1
- Date: Thu, 19 Jun 2025 06:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.96911
- Title: TD3Net: A Temporal Densely Connected Multi-Dilated Convolutional Network for Lipreading
- Title(参考訳): TD3Net:リップリーディングのためのテンポラリな接続型多次元畳み込みネットワーク
- Authors: Byung Hoon Lee, Wooseok Shin, Sung Won Han,
- Abstract要約: バックエンドアーキテクチャとして高密度スキップ接続と時間畳み込みを組み合わせた時間密結合型多進化ネットワークTD3Netを提案する。
2つの大きな公開データセットであるLRW(Lip Reading in the Wild)とLRW-1000(Lip Reading in the Wild)を用いた単語レベルの読解処理の実験結果から,提案手法が最先端の手法に匹敵する性能を実現することを示す。
- 参考スコア(独自算出の注目度): 5.768165707140847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The word-level lipreading approach typically employs a two-stage framework with separate frontend and backend architectures to model dynamic lip movements. Each component has been extensively studied, and in the backend architecture, temporal convolutional networks (TCNs) have been widely adopted in state-of-the-art methods. Recently, dense skip connections have been introduced in TCNs to mitigate the limited density of the receptive field, thereby improving the modeling of complex temporal representations. However, their performance remains constrained owing to potential information loss regarding the continuous nature of lip movements, caused by blind spots in the receptive field. To address this limitation, we propose TD3Net, a temporal densely connected multi-dilated convolutional network that combines dense skip connections and multi-dilated temporal convolutions as the backend architecture. TD3Net covers a wide and dense receptive field without blind spots by applying different dilation factors to skip-connected features. Experimental results on a word-level lipreading task using two large publicly available datasets, Lip Reading in the Wild (LRW) and LRW-1000, indicate that the proposed method achieves performance comparable to state-of-the-art methods. It achieved higher accuracy with fewer parameters and lower floating-point operations compared to existing TCN-based backend architectures. Moreover, visualization results suggest that our approach effectively utilizes diverse temporal features while preserving temporal continuity, presenting notable advantages in lipreading systems. The code is available at our GitHub repository: https://github.com/Leebh-kor/TD3Net-A-Temporal-Densely-Connected-Multi-dilated-Convolutional-Network -for-Lipreading
- Abstract(参考訳): ワードレベルのリップリーディングアプローチでは、動的リップ動作をモデル化するために、フロントエンドとバックエンドアーキテクチャを分離した2段階のフレームワークを使用するのが一般的である。
それぞれのコンポーネントは広く研究され、バックエンドアーキテクチャでは、時間的畳み込みネットワーク(TCN)が最先端の手法で広く採用されている。
近年、受容場の限られた密度を緩和し、複雑な時間的表現のモデリングを改善するために、TCNにおいて密度の高いスキップ接続が導入されている。
しかし, 知覚野の盲点による唇運動の連続性に関する潜在的な情報損失により, その性能は依然として制限されている。
この制限に対処するため、我々はTD3Netを提案する。TD3Netは、高密度なスキップ接続と多次元の時間的畳み込みをバックエンドアーキテクチャとして組み合わせた、時間密結合型多次元畳み込みネットワークである。
TD3Netは、スキップ接続された機能に異なる拡張因子を適用することにより、盲点のない広範で密度の高い受容領域をカバーする。
2つの大きな公開データセットであるLRW(Lip Reading in the Wild)とLRW-1000(Lip Reading in the Wild)を用いた単語レベルの読解処理の実験結果から,提案手法が最先端の手法に匹敵する性能を実現することを示す。
既存のTCNベースのバックエンドアーキテクチャと比較して、パラメータが少なく、浮動小数点演算も少ない精度で達成した。
さらに,本手法は時間的連続性を保ちながら多様な時間的特徴を効果的に活用し,リップリーディングシステムにおいて顕著な優位性を示すことが示唆された。
コードはGitHubリポジトリで入手できる。 https://github.com/Leebh-kor/TD3Net-A-Temporal-Densely-Connected-Multi-Dilated-Convolutional-Network -for-Lipreading。
関連論文リスト
- Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - DyCSC: Modeling the Evolutionary Process of Dynamic Networks Based on
Cluster Structure [1.005130974691351]
動的クラスタ構造制約モデル(DyCSC)と呼ばれる新しい時間ネットワーク埋め込み手法を提案する。
DyCSCは、ネットワーク内のノードの傾向に時間的制約を課すことで、時間的ネットワークの進化を捉えている。
複数の時間リンク予測タスクにおいて、競合する手法をかなりのマージンで一貫して上回る。
論文 参考訳(メタデータ) (2022-10-23T10:23:08Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Lip-reading with Densely Connected Temporal Convolutional Networks [61.66144695679362]
本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
論文 参考訳(メタデータ) (2020-09-29T18:08:15Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。