論文の概要: Temporal superimposed crossover module for effective continuous sign
language
- arxiv url: http://arxiv.org/abs/2211.03387v3
- Date: Sat, 1 Apr 2023 10:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:18:56.577559
- Title: Temporal superimposed crossover module for effective continuous sign
language
- Title(参考訳): 実効連続手話のための時間重畳クロスオーバーモジュール
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
- 参考スコア(独自算出の注目度): 10.920363368754721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goal of continuous sign language recognition(CSLR) is to
facilitate the communication between special people and normal people, which
requires a certain degree of real-time and deploy-ability of the model.
However, in the previous research on CSLR, little attention has been paid to
the real-time and deploy-ability. In order to improve the real-time and
deploy-ability of the model, this paper proposes a zero parameter, zero
computation temporal superposition crossover module(TSCM), and combines it with
2D convolution to form a "TSCM+2D convolution" hybrid convolution, which
enables 2D convolution to have strong spatial-temporal modelling capability
with zero parameter increase and lower deployment cost compared with other
spatial-temporal convolutions. The overall CSLR model based on TSCM is built on
the improved ResBlockT network in this paper. The hybrid convolution of
"TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form
the new ResBlockT, and random gradient stop and multi-level CTC loss are
introduced to train the model, which reduces the final recognition WER while
reducing the training memory usage, and extends the ResNet network from image
classification task to video recognition task. In addition, this study is the
first in CSLR to use only 2D convolution extraction of sign language video
temporal-spatial features for end-to-end learning for recognition. Experiments
on two large-scale continuous sign language datasets demonstrate the
effectiveness of the proposed method and achieve highly competitive results.
- Abstract(参考訳): 継続的手話認識(cslr)の最終的な目標は、モデルのある程度のリアルタイムとデプロイ可能性を必要とする、特殊人と正常な人々とのコミュニケーションを促進することである。
しかし、CSLRに関する以前の研究では、リアルタイムとデプロイ能力にはほとんど注意が払われていない。
モデルの実時間および展開性を改善するために,ゼロパラメータ,ゼロ計算時間重畳クロスオーバーモジュール (TSCM) を提案し,それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込み(TSCM+2D畳み込み)を形成する。
本稿では,tscmに基づくcslrモデル全体を改良されたresblocktネットワーク上に構築する。
tscm+2d畳み込み」のハイブリッド畳み込みをresnetネットワークのresblockに応用して新しいresblocktを形成し、ランダム勾配停止とマルチレベルctc損失を導入してモデルをトレーニングし、トレーニングメモリ使用量を減らしながら最終認識 werを削減し、resnetネットワークを画像分類タスクからビデオ認識タスクに拡張する。
さらに,CSLRでは,手話ビデオの時間空間的特徴を2次元畳み込み抽出のみを用いて認識のためのエンドツーエンド学習を行った。
2つの大規模連続手話データセットの実験は,提案手法の有効性を実証し,高い競争力を発揮する。
関連論文リスト
- CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Continuous Sign Language Recognition via Temporal Super-Resolution
Network [10.920363368754721]
本稿では,深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持つという課題を論じる。
データは、最終認識精度の損失を最小限に抑えながら、全体モデルを低減するために、密度の高い特徴シーケンスに再構成される。
2つの大規模手話データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-03T00:55:45Z) - Large Scale Time-Series Representation Learning via Simultaneous Low and
High Frequency Feature Bootstrapping [7.0064929761691745]
本稿では,非コントラスト型自己教師型学習手法を提案する。
提案手法は生の時系列データを入力として、モデルの2つのブランチに対して2つの異なる拡張ビューを生成する。
モデルの堅牢性を実証するために,5つの実世界の時系列データセットに関する広範な実験とアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-04-24T14:39:47Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文 参考訳(メタデータ) (2020-07-21T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。