論文の概要: Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2204.08747v1
- Date: Tue, 19 Apr 2022 08:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:27:05.292828
- Title: Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition
- Title(参考訳): 連続手話認識のためのマルチビュー時空間ネットワーク
- Authors: Ronghui Li and Lu Meng
- Abstract要約: 本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is a beautiful visual language and is also the primary language
used by speaking and hearing-impaired people. However, sign language has many
complex expressions, which are difficult for the public to understand and
master. Sign language recognition algorithms will significantly facilitate
communication between hearing-impaired people and normal people. Traditional
continuous sign language recognition often uses a sequence learning method
based on Convolutional Neural Network (CNN) and Long Short-Term Memory Network
(LSTM). These methods can only learn spatial and temporal features separately,
which cannot learn the complex spatial-temporal features of sign language. LSTM
is also difficult to learn long-term dependencies. To alleviate these problems,
this paper proposes a multi-view spatial-temporal continuous sign language
recognition network. The network consists of three parts. The first part is a
Multi-View Spatial-Temporal Feature Extractor Network (MSTN), which can
directly extract the spatial-temporal features of RGB and skeleton data; the
second is a sign language encoder network based on Transformer, which can learn
long-term dependencies; the third is a Connectionist Temporal Classification
(CTC) decoder network, which is used to predict the whole meaning of the
continuous sign language. Our algorithm is tested on two public sign language
datasets SLR-100 and PHOENIX-Weather 2014T (RWTH). As a result, our method
achieves excellent performance on both datasets. The word error rate on the
SLR-100 dataset is 1.9%, and the word error rate on the RWTHPHOENIX-Weather
dataset is 22.8%.
- Abstract(参考訳): 手話は美しい視覚言語であり、話し手や聴覚障害者が使用する主要言語でもある。
しかし、手話には多くの複雑な表現があり、大衆が理解しマスターすることが困難である。
手話認識アルゴリズムは、聴覚障害者と普通の人とのコミュニケーションを著しく促進する。
従来の連続手話認識では、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory Network(LSTM)に基づくシーケンス学習法がよく用いられる。
これらの手法は空間的特徴と時間的特徴を別々に学習することができ、手話の複雑な空間的・時間的特徴を学習できない。
LSTMは長期依存の学習も困難である。
これらの問題を緩和するために,多視点空間時空間連続手話認識ネットワークを提案する。
ネットワークは3つの部分からなる。
第1部はmstn(multi-view spatial-temporal feature extractor network)で、rgbとスケルトンデータの空間的-時間的特徴を直接抽出し、第2部はトランスフォーマーに基づく手話エンコーダネットワークであり、長期的な依存関係を学習することができる。
本アルゴリズムは,SLR-100とPHOENIX-Weather 2014T(RWTH)の2つの公開手話データセットで検証する。
その結果,本手法は両方のデータセットにおいて優れた性能を発揮する。
SLR-100データセットの単語エラー率は1.9%、RWTHPHOENIX-Weatherデータセットの単語エラー率は22.8%である。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - CiCo: Domain-Aware Sign Language Retrieval via Cross-Lingual Contrastive
Learning [38.83062453145388]
手話検索は、テキスト・トゥ・サイン・ビデオ(T2V)検索とサイン・ビデオ・トゥ・テキスト(V2T)検索の2つのサブタスクで構成される。
我々は手話と自然言語の両方の言語特性を考慮し、さらに粒度の細かい言語間マッピングを同時に同定する。
我々のフレームワークは、様々なデータセットに対して大きなマージンで先駆的手法より優れています。
論文 参考訳(メタデータ) (2023-03-22T17:59:59Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Application of Transfer Learning to Sign Language Recognition using an
Inflated 3D Deep Convolutional Neural Network [0.0]
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。
本稿では,手話認識における伝達学習の有効性について検討する。
論文 参考訳(メタデータ) (2021-02-25T13:37:39Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。