論文の概要: Fully Convolutional Networks for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2007.12402v1
- Date: Fri, 24 Jul 2020 08:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:48:43.442423
- Title: Fully Convolutional Networks for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための完全畳み込みネットワーク
- Authors: Ka Leong Cheng, Zhaoyang Yang, Qifeng Chen, Yu-Wing Tai
- Abstract要約: 連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
- 参考スコア(独自算出の注目度): 83.85895472824221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous sign language recognition (SLR) is a challenging task that
requires learning on both spatial and temporal dimensions of signing frame
sequences. Most recent work accomplishes this by using CNN and RNN hybrid
networks. However, training these networks is generally non-trivial, and most
of them fail in learning unseen sequence patterns, causing an unsatisfactory
performance for online recognition. In this paper, we propose a fully
convolutional network (FCN) for online SLR to concurrently learn spatial and
temporal features from weakly annotated video sequences with only
sentence-level annotations given. A gloss feature enhancement (GFE) module is
introduced in the proposed network to enforce better sequence alignment
learning. The proposed network is end-to-end trainable without any
pre-training. We conduct experiments on two large scale SLR datasets.
Experiments show that our method for continuous SLR is effective and performs
well in online recognition.
- Abstract(参考訳): 連続手話認識(SLR)は、署名フレームシーケンスの空間次元と時間次元の両方の学習を必要とする課題である。
最近の研究は、CNNとRNNのハイブリッドネットワークを使ってこれを達成している。
しかし、これらのネットワークのトレーニングは概して簡単ではなく、ほとんどは目に見えないシーケンスパターンの学習に失敗し、オンライン認識に不満足なパフォーマンスをもたらす。
本稿では,オンラインSLRのための完全畳み込みネットワーク(FCN)を提案する。
より優れたシーケンスアライメント学習を実現するため,GFE(Gloss Feature enhancement)モジュールが提案されている。
提案するネットワークは、事前トレーニングなしでエンドツーエンドでトレーニングできる。
2つの大規模SLRデータセットで実験を行う。
実験の結果, 連続SLR法はオンライン認識において有効であり, 有効であることがわかった。
関連論文リスト
- Fusion Encoder Networks [4.9094025705644695]
シーケンスを出力にマッピングするニューラルネットワークを作成するアルゴリズムのクラスを提示する。
結果として得られるニューラルネットワークは対数深さのみを持つ(ネットワークを介して伝播するデータの劣化を緩和する)。
FENの最も重要な特性は、一定深度フィードフォワードニューラルネットワークの準線形数を並列にトレーニングすることで学習することである。
論文 参考訳(メタデータ) (2024-02-24T19:06:41Z) - Continual Learning: Forget-free Winning Subnetworks for Video
Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)のシナリオにおいて,既存のネットワークからの重みを有効活用し,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural
Networks [74.4401897731544]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Temporal superimposed crossover module for effective continuous sign
language [10.920363368754721]
本稿では、ゼロパラメータ、ゼロ時間重畳クロスオーバーモジュール(TSCM)を提案し、それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込みを形成する。
2つの大規模連続手話データセットの実験により,提案手法の有効性を実証し,高い競争力を持つ結果を得た。
論文 参考訳(メタデータ) (2022-11-07T09:33:42Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Classification of Long Sequential Data using Circular Dilated
Convolutional Neural Networks [10.014879130837912]
循環拡張畳み込みニューラルネットワーク(CDIL-CNN)と呼ばれる対称型マルチスケールアーキテクチャを提案する。
本モデルでは,全ての位置で分類ロジットを付与し,簡単なアンサンブル学習を適用し,より良い判断を下すことができる。
論文 参考訳(メタデータ) (2022-01-06T16:58:59Z) - Self-Supervised Learning for Binary Networks by Joint Classifier
Training [11.612308609123566]
本稿では,バイナリネットワークのための自己教師付き学習手法を提案する。
バイナリネットワークのより良いトレーニングのために,特徴類似性損失,損失項の動的バランススキーム,マルチステージトレーニングの修正を提案する。
実証実験により、BSSLは、下流タスクにおけるバイナリネットワークの自己教師付き学習ベースラインよりも優れ、特定のタスクにおける教師付き事前学習よりも優れています。
論文 参考訳(メタデータ) (2021-10-17T15:38:39Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。