Fugu-MT 論文翻訳(概要): SpotFast Networks with Memory Augmented Lateral Transformers for Lipreading

論文の概要: SpotFast Networks with Memory Augmented Lateral Transformers for Lipreading

arxiv url: http://arxiv.org/abs/2005.10903v1
Date: Thu, 21 May 2020 21:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 22:53:06.729967
Title: SpotFast Networks with Memory Augmented Lateral Transformers for Lipreading
Title（参考訳）: メモリ拡張横型トランスフォーマを用いたリップリードのためのスポットファストネットワーク
Authors: Peratham Wiriyathammabhum
Abstract要約: 本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。動作認識のための最新技術であるSlowFastネットワークの変種であるSpotFastネットワークを導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel deep learning architecture for word-level lipreading. Previous works suggest a potential for incorporating a pretrained deep 3D Convolutional Neural Networks as a front-end feature extractor. We introduce a SpotFast networks, a variant of the state-of-the-art SlowFast networks for action recognition, which utilizes a temporal window as a spot pathway and all frames as a fast pathway. We further incorporate memory augmented lateral transformers to learn sequential features for classification. We evaluate the proposed model on the LRW dataset. The experiments show that our proposed model outperforms various state-of-the-art models and incorporating the memory augmented lateral transformers makes a 3.7% improvement to the SpotFast networks.
Abstract（参考訳）: 本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。従来の研究は、事前訓練された深部3次元畳み込みニューラルネットワークをフロントエンド特徴抽出器として組み込む可能性を示している。我々は,行動認識のための最先端のスローファストネットワークの変種であるspotfast networksを紹介し,時間窓をスポットパスとし,全フレームを高速経路とする。さらに,メモリ拡張横変圧器を組み込んで逐次特徴を学習し,分類を行う。 LRWデータセット上で提案したモデルを評価する。実験により,提案モデルが様々な最先端モデルより優れ,メモリ拡張横型トランスフォーマーを組み込むことで,SpotFastネットワークの3.7%の改善が得られた。

関連論文リスト

Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。 ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文参考訳（メタデータ） (2025-11-24T21:28:55Z)
A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文参考訳（メタデータ） (2025-06-08T18:43:31Z)
Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。 CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文参考訳（メタデータ） (2024-08-26T12:59:32Z)
TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文参考訳（メタデータ） (2024-08-20T09:40:08Z)
Robust Localization of Key Fob Using Channel Impulse Response of Ultra Wide Band Sensors for Keyless Entry Systems [12.313730356985019]
キーレス入力のセキュリティ機能として、車内および周囲のキーフォブのローカライズにニューラルネットワークを使用することは、急速に進んでいる。モデルの性能は, 高速勾配法では, 一定の範囲で67%向上し, 基本反復法では37%, 投射勾配法では37%向上した。
論文参考訳（メタデータ） (2024-01-16T22:35:14Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文参考訳（メタデータ） (2022-07-18T06:01:29Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-30T09:48:30Z)
LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文参考訳（メタデータ） (2021-04-02T16:29:57Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。