論文の概要: Multi-scale temporal network for continuous sign language recognition
- arxiv url: http://arxiv.org/abs/2204.03864v1
- Date: Fri, 8 Apr 2022 06:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:10:38.981595
- Title: Multi-scale temporal network for continuous sign language recognition
- Title(参考訳): 連続手話認識のためのマルチスケール時間ネットワーク
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
- 参考スコア(独自算出の注目度): 10.920363368754721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous Sign Language Recognition (CSLR) is a challenging research task
due to the lack of accurate annotation on the temporal sequence of sign
language data. The recent popular usage is a hybrid model based on "CNN + RNN"
for CSLR. However, when extracting temporal features in these works, most of
the methods using a fixed temporal receptive field and cannot extract the
temporal features well for each sign language word. In order to obtain more
accurate temporal features, this paper proposes a multi-scale temporal network
(MSTNet). The network mainly consists of three parts. The Resnet and two fully
connected (FC) layers constitute the frame-wise feature extraction part. The
time-wise feature extraction part performs temporal feature learning by first
extracting temporal receptive field features of different scales using the
proposed multi-scale temporal block (MST-block) to improve the temporal
modeling capability, and then further encoding the temporal features of
different scales by the transformers module to obtain more accurate temporal
features. Finally, the proposed multi-level Connectionist Temporal
Classification (CTC) loss part is used for training to obtain recognition
results. The multi-level CTC loss enables better learning and updating of the
shallow network parameters in CNN, and the method has no parameter increase and
can be flexibly embedded in other models. Experimental results on two publicly
available datasets demonstrate that our method can effectively extract sign
language features in an end-to-end manner without any prior knowledge,
improving the accuracy of CSLR and reaching the state-of-the-art.
- Abstract(参考訳): 連続手話認識(cslr)は,手話データの時間系列に対する正確なアノテーションが欠如しているため,困難な研究課題である。
最近の一般的な使用法はCSLRの"CNN + RNN"に基づくハイブリッドモデルである。
しかし、これらの作品から時間的特徴を抽出する場合、ほとんどの手法は一定の時間的受容場を用いており、各手話単語の時間的特徴をうまく抽出できない。
本稿では,より正確な時間的特徴を得るために,マルチスケール時間ネットワーク (mstnet) を提案する。
ネットワークは主に3つの部分からなる。
Resnetと2つの完全連結(FC)層は、フレームワイド特徴抽出部を構成する。
時間的特徴抽出部は、提案したマルチスケール時間ブロック(MSTブロック)を用いて、まず異なるスケールの時間的受容場特徴を抽出し、時間的モデリング能力を改善し、さらにトランスフォーマーモジュールにより異なるスケールの時間的特徴を符号化し、より正確な時間的特徴を得る。
最後に,提案する多レベル接続性時間分類(CTC)損失部を用いて,認識結果を得る。
マルチレベルctc損失により,cnnにおける浅層ネットワークパラメータの学習と更新が向上し,パラメータ増加がなく,他のモデルにも柔軟に組み込むことが可能となった。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴を効果的に抽出し,CSLRの精度を向上し,最先端に到達できることが示されている。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - Continuous Sign Language Recognition via Temporal Super-Resolution
Network [10.920363368754721]
本稿では,深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持つという課題を論じる。
データは、最終認識精度の損失を最小限に抑えながら、全体モデルを低減するために、密度の高い特徴シーケンスに再構成される。
2つの大規模手話データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-03T00:55:45Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z) - Temporal Interlacing Network [8.876132549551738]
時間的インターレースネットワーク(TIN)は、時間的特徴を学習するための単純だが強力な演算子である。
TINは、空間表現を過去から未来へインターレースすることで、2種類の情報を融合する。
TINはICCV19 - Multi Moments in Timeで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。