論文の概要: Temporal superimposed crossover module for effective continuous sign
language
- arxiv url: http://arxiv.org/abs/2211.03387v1
- Date: Mon, 7 Nov 2022 09:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:30:07.310774
- Title: Temporal superimposed crossover module for effective continuous sign
language
- Title(参考訳): 実効連続手話のための時間重畳クロスオーバーモジュール
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
- 参考スコア(独自算出の注目度): 10.920363368754721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goal of continuous sign language recognition(CSLR) is to
facilitate the communication between special people and normal people, which
requires a certain degree of real-time and deploy-ability of the model.
However, in the previous research on CSLR, little attention has been paid to
the real-time and deploy-ability. In order to improve the real-time and
deploy-ability of the model, this paper proposes a zero parameter, zero
computation temporal superposition crossover module(TSCM), and combines it with
2D convolution to form a "TSCM+2D convolution" hybrid convolution, which
enables 2D convolution to have strong spatial-temporal modelling capability
with zero parameter increase and lower deployment cost compared with other
spatial-temporal convolutions. The overall CSLR model based on TSCM is built on
the improved ResBlockT network in this paper. The hybrid convolution of
"TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form
the new ResBlockT, and random gradient stop and multi-level CTC loss are
introduced to train the model, which reduces the final recognition WER while
reducing the training memory usage, and extends the ResNet network from image
classification task to video recognition task. In addition, this study is the
first in CSLR to use only 2D convolution extraction of sign language video
temporal-spatial features for end-to-end learning for recognition. Experiments
on two large-scale continuous sign language datasets demonstrate the
effectiveness of the proposed method and achieve highly competitive results.
- Abstract(参考訳): 継続的手話認識(cslr)の最終的な目標は、モデルのある程度のリアルタイムとデプロイ可能性を必要とする、特殊人と正常な人々とのコミュニケーションを促進することである。
しかし、CSLRに関する以前の研究では、リアルタイムとデプロイ能力にはほとんど注意が払われていない。
モデルの実時間および展開性を改善するために,ゼロパラメータ,ゼロ計算時間重畳クロスオーバーモジュール (TSCM) を提案し,それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込み(TSCM+2D畳み込み)を形成する。
本稿では,tscmに基づくcslrモデル全体を改良されたresblocktネットワーク上に構築する。
tscm+2d畳み込み」のハイブリッド畳み込みをresnetネットワークのresblockに応用して新しいresblocktを形成し、ランダム勾配停止とマルチレベルctc損失を導入してモデルをトレーニングし、トレーニングメモリ使用量を減らしながら最終認識 werを削減し、resnetネットワークを画像分類タスクからビデオ認識タスクに拡張する。
さらに,CSLRでは,手話ビデオの時間空間的特徴を2次元畳み込み抽出のみを用いて認識のためのエンドツーエンド学習を行った。
2つの大規模連続手話データセットの実験は,提案手法の有効性を実証し,高い競争力を発揮する。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - MsDC-DEQ-Net: Deep Equilibrium Model (DEQ) with Multi-scale Dilated
Convolution for Image Compressive Sensing (CS) [0.0]
圧縮センシング(CS)は、従来のサンプリング法よりも少ない測定値を用いてスパース信号の回復を可能にする技術である。
我々はCSを用いた自然画像再構成のための解釈可能かつ簡潔なニューラルネットワークモデルを構築した。
MsDC-DEQ-Netと呼ばれるこのモデルは、最先端のネットワークベースの手法と比較して、競争力のある性能を示す。
論文 参考訳(メタデータ) (2024-01-05T16:25:58Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Continuous sign language recognition based on cross-resolution knowledge
distillation [10.920363368754721]
本稿では,教師ネットワークの出力と同一の規模でフレームレベルの特徴を出力するフレームレベルの特徴抽出器を提案する。
その後、クロスレゾリューションの知識蒸留法と伝統的な知識蒸留法を組み合わせてCSLRモデルを形成する。
2つの大規模連続手話データセットの実験によりCRKDの有効性が証明された。
論文 参考訳(メタデータ) (2023-03-13T02:33:34Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Continuous Sign Language Recognition via Temporal Super-Resolution
Network [10.920363368754721]
本稿では,深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持つという課題を論じる。
データは、最終認識精度の損失を最小限に抑えながら、全体モデルを低減するために、密度の高い特徴シーケンスに再構成される。
2つの大規模手話データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-03T00:55:45Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Representation Compensation Networks for Continual Semantic Segmentation [79.05769734989164]
深いニューラルネットワークが破滅的な忘れをせずに新しいクラスを継続的に組み込む必要がある,連続的なセマンティックセマンティックセグメンテーション問題について検討する。
本稿では,従来の知識と新しい知識の両方の表現学習を分離するために,構造的再パラメータ化機構である表現補償(RC)モジュールを提案する。
連続的なクラスセグメンテーションと連続的なドメインセグメンテーションという2つの挑戦的な意味セグメンテーションのシナリオについて実験を行う。
論文 参考訳(メタデータ) (2022-03-10T14:48:41Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文 参考訳(メタデータ) (2020-07-21T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。