論文の概要: SpotFast Networks with Memory Augmented Lateral Transformers for
Lipreading
- arxiv url: http://arxiv.org/abs/2005.10903v1
- Date: Thu, 21 May 2020 21:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:53:06.729967
- Title: SpotFast Networks with Memory Augmented Lateral Transformers for
Lipreading
- Title(参考訳): メモリ拡張横型トランスフォーマを用いたリップリードのためのスポットファストネットワーク
- Authors: Peratham Wiriyathammabhum
- Abstract要約: 本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。
動作認識のための最新技術であるSlowFastネットワークの変種であるSpotFastネットワークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel deep learning architecture for word-level
lipreading. Previous works suggest a potential for incorporating a pretrained
deep 3D Convolutional Neural Networks as a front-end feature extractor. We
introduce a SpotFast networks, a variant of the state-of-the-art SlowFast
networks for action recognition, which utilizes a temporal window as a spot
pathway and all frames as a fast pathway. We further incorporate memory
augmented lateral transformers to learn sequential features for classification.
We evaluate the proposed model on the LRW dataset. The experiments show that
our proposed model outperforms various state-of-the-art models and
incorporating the memory augmented lateral transformers makes a 3.7%
improvement to the SpotFast networks.
- Abstract(参考訳): 本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。
従来の研究は、事前訓練された深部3次元畳み込みニューラルネットワークをフロントエンド特徴抽出器として組み込む可能性を示している。
我々は,行動認識のための最先端のスローファストネットワークの変種であるspotfast networksを紹介し,時間窓をスポットパスとし,全フレームを高速経路とする。
さらに,メモリ拡張横変圧器を組み込んで逐次特徴を学習し,分類を行う。
LRWデータセット上で提案したモデルを評価する。
実験により,提案モデルが様々な最先端モデルより優れ,メモリ拡張横型トランスフォーマーを組み込むことで,SpotFastネットワークの3.7%の改善が得られた。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Robust Localization of Key Fob Using Channel Impulse Response of Ultra
Wide Band Sensors for Keyless Entry Systems [12.313730356985019]
キーレス入力のセキュリティ機能として、車内および周囲のキーフォブのローカライズにニューラルネットワークを使用することは、急速に進んでいる。
モデルの性能は, 高速勾配法では, 一定の範囲で67%向上し, 基本反復法では37%, 投射勾配法では37%向上した。
論文 参考訳(メタデータ) (2024-01-16T22:35:14Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。