論文の概要: Continuous Sign Language Recognition via Temporal Super-Resolution
Network
- arxiv url: http://arxiv.org/abs/2207.00928v1
- Date: Sun, 3 Jul 2022 00:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:36:16.926218
- Title: Continuous Sign Language Recognition via Temporal Super-Resolution
Network
- Title(参考訳): 時間的超解法ネットワークによる連続手話認識
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では,深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持つという課題を論じる。
データは、最終認識精度の損失を最小限に抑えながら、全体モデルを低減するために、密度の高い特徴シーケンスに再構成される。
2つの大規模手話データセットの実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 10.920363368754721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming at the problem that the spatial-temporal hierarchical continuous sign
language recognition model based on deep learning has a large amount of
computation, which limits the real-time application of the model, this paper
proposes a temporal super-resolution network(TSRNet). The data is reconstructed
into a dense feature sequence to reduce the overall model computation while
keeping the final recognition accuracy loss to a minimum. The continuous sign
language recognition model(CSLR) via TSRNet mainly consists of three parts:
frame-level feature extraction, time series feature extraction and TSRNet,
where TSRNet is located between frame-level feature extraction and time-series
feature extraction, which mainly includes two branches: detail descriptor and
rough descriptor. The sparse frame-level features are fused through the
features obtained by the two designed branches as the reconstructed dense
frame-level feature sequence, and the connectionist temporal
classification(CTC) loss is used for training and optimization after the
time-series feature extraction part. To better recover semantic-level
information, the overall model is trained with the self-generating adversarial
training method proposed in this paper to reduce the model error rate. The
training method regards the TSRNet as the generator, and the frame-level
processing part and the temporal processing part as the discriminator. In
addition, in order to unify the evaluation criteria of model accuracy loss
under different benchmarks, this paper proposes word error rate
deviation(WERD), which takes the error rate between the estimated word error
rate (WER) and the reference WER obtained by the reconstructed frame-level
feature sequence and the complete original frame-level feature sequence as the
WERD. Experiments on two large-scale sign language datasets demonstrate the
effectiveness of the proposed model.
- Abstract(参考訳): 深層学習に基づく空間的時間的階層的連続手話認識モデルが大量の計算量を持ち,そのモデルのリアルタイム適用を制限している問題に着目し,時間的超解像ネットワーク(TSRNet)を提案する。
データは密集した特徴列に再構成され、最終的な認識精度の損失を最小限に抑えながら、モデル全体の計算量を削減する。
TSRNetによる連続手話認識モデル(CSLR)は主にフレームレベル特徴抽出、時系列特徴抽出、TSRNetという3つの部分から構成され、TSRNetはフレームレベル特徴抽出と時系列特徴抽出の中間に位置する。
再構成されたフレームレベル特徴列として、2つの設計枝から得られた特徴を通して疎フレームレベル特徴を融合させ、時系列特徴抽出部後の訓練および最適化のために接続主義時相分類(ctc)損失を用いる。
セマンティックレベルの情報をよりよく回復するために,本論文で提案した自己生成型逆行訓練法を用いて,モデル誤り率の低減を図った。
訓練方法は、tsrnetを生成器とし、フレームレベル処理部と時間処理部とを判別器とする。
さらに、異なるベンチマークでモデル精度損失の評価基準を統一するために、推定単語誤り率(WER)と、再構成されたフレームレベルの特徴系列と、WERDとして完全なフレームレベルの特徴系列によって得られた参照WERとの間の誤差率を求める単語誤り率偏差(WERD)を提案する。
2つの大規模手話データセットにおける実験により,提案モデルの有効性が示された。
関連論文リスト
- Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - Learning Signal Temporal Logic through Neural Network for Interpretable
Classification [13.829082181692872]
本稿では時系列行動の分類のための説明可能なニューラルネットワーク・シンボリック・フレームワークを提案する。
提案手法の計算効率, コンパクト性, 解釈可能性について, シナリオの駆動と海軍の監視事例研究を通じて実証する。
論文 参考訳(メタデータ) (2022-10-04T21:11:54Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Evaluation and Comparison of Deep Learning Methods for Pavement Crack
Identification with Visual Images [0.0]
ディープラーニングアルゴリズムによる視覚画像による舗装き裂の識別は、検出対象の材料によって制限されないという利点がある。
パッチサンプル分類の面では、細調整されたTLモデルはEDモデルと精度で同等またはわずかに良い。
正確なクラック位置の面では、EDアルゴリズムとGANアルゴリズムの両方がピクセルレベルのセグメンテーションを達成でき、低演算パワープラットフォーム上でリアルタイムに検出されることが期待できる。
論文 参考訳(メタデータ) (2021-12-20T08:23:43Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。