論文の概要: Fully Convolutional Networks for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2007.12402v1
- Date: Fri, 24 Jul 2020 08:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:48:43.442423
- Title: Fully Convolutional Networks for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための完全畳み込みネットワーク
- Authors: Ka Leong Cheng, Zhaoyang Yang, Qifeng Chen, Yu-Wing Tai
- Abstract要約: 連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
- 参考スコア(独自算出の注目度): 83.85895472824221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous sign language recognition (SLR) is a challenging task that
requires learning on both spatial and temporal dimensions of signing frame
sequences. Most recent work accomplishes this by using CNN and RNN hybrid
networks. However, training these networks is generally non-trivial, and most
of them fail in learning unseen sequence patterns, causing an unsatisfactory
performance for online recognition. In this paper, we propose a fully
convolutional network (FCN) for online SLR to concurrently learn spatial and
temporal features from weakly annotated video sequences with only
sentence-level annotations given. A gloss feature enhancement (GFE) module is
introduced in the proposed network to enforce better sequence alignment
learning. The proposed network is end-to-end trainable without any
pre-training. We conduct experiments on two large scale SLR datasets.
Experiments show that our method for continuous SLR is effective and performs
well in online recognition.
- Abstract(参考訳): 連続手話認識(SLR)は、署名フレームシーケンスの空間次元と時間次元の両方の学習を必要とする課題である。
最近の研究は、CNNとRNNのハイブリッドネットワークを使ってこれを達成している。
しかし、これらのネットワークのトレーニングは概して簡単ではなく、ほとんどは目に見えないシーケンスパターンの学習に失敗し、オンライン認識に不満足なパフォーマンスをもたらす。
本稿では,オンラインSLRのための完全畳み込みネットワーク(FCN)を提案する。
より優れたシーケンスアライメント学習を実現するため,GFE(Gloss Feature enhancement)モジュールが提案されている。
提案するネットワークは、事前トレーニングなしでエンドツーエンドでトレーニングできる。
2つの大規模SLRデータセットで実験を行う。
実験の結果, 連続SLR法はオンライン認識において有効であり, 有効であることがわかった。
関連論文リスト
- Random Representations Outperform Online Continually Learned Representations [68.42776779425978]
既存のオンライン学習深層ネットワークは、単純な事前定義されたランダム変換に比べて劣った表現を生成することを示す。
我々の手法はRanDumbと呼ばれ、あらゆるオンライン連続学習ベンチマークにおいて、最先端の学習表現を著しく上回っている。
本研究は, 表現学習の大きな限界, 特に低経験, オンライン連続学習のシナリオについて明らかにした。
論文 参考訳(メタデータ) (2024-02-13T22:07:29Z) - Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Classification of Long Sequential Data using Circular Dilated
Convolutional Neural Networks [10.014879130837912]
循環拡張畳み込みニューラルネットワーク(CDIL-CNN)と呼ばれる対称型マルチスケールアーキテクチャを提案する。
本モデルでは,全ての位置で分類ロジットを付与し,簡単なアンサンブル学習を適用し,より良い判断を下すことができる。
論文 参考訳(メタデータ) (2022-01-06T16:58:59Z) - Self-Supervised Learning for Binary Networks by Joint Classifier
Training [11.612308609123566]
本稿では,バイナリネットワークのための自己教師付き学習手法を提案する。
バイナリネットワークのより良いトレーニングのために,特徴類似性損失,損失項の動的バランススキーム,マルチステージトレーニングの修正を提案する。
実証実験により、BSSLは、下流タスクにおけるバイナリネットワークの自己教師付き学習ベースラインよりも優れ、特定のタスクにおける教師付き事前学習よりも優れています。
論文 参考訳(メタデータ) (2021-10-17T15:38:39Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。