論文の概要: Word-level Sign Language Recognition with Multi-stream Neural Networks
Focusing on Local Regions
- arxiv url: http://arxiv.org/abs/2106.15989v1
- Date: Wed, 30 Jun 2021 11:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:22:05.565726
- Title: Word-level Sign Language Recognition with Multi-stream Neural Networks
Focusing on Local Regions
- Title(参考訳): 局所領域に着目したマルチストリームニューラルネットワークによる単語レベル手話認識
- Authors: Mizuki Maruyama, Shuvozit Ghose, Katsufumi Inoue, Partha Pratim Roy,
Masakazu Iwamura, Michifumi Yoshioka
- Abstract要約: 本稿では,ローカル領域の画像を含むストリームと,骨格情報を持つストリームを導入した,新しいマルチストリームWSLRフレームワークを提案する。
WLASLデータセットの実験結果から,提案手法がTop-1精度で約15%向上したことが明らかとなった。
- 参考スコア(独自算出の注目度): 17.766396543732753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Word-level Sign Language Recognition (WSLR) research has
gained popularity in the computer vision community, and thus various approaches
have been proposed. Among these approaches, the method using I3D network
achieves the highest recognition accuracy on large public datasets for WSLR.
However, the method with I3D only utilizes appearance information of the upper
body of the signers to recognize sign language words. On the other hand, in
WSLR, the information of local regions, such as the hand shape and facial
expression, and the positional relationship among the body and both hands are
important. Thus in this work, we utilized local region images of both hands and
face, along with skeletal information to capture local information and the
positions of both hands relative to the body, respectively. In other words, we
propose a novel multi-stream WSLR framework, in which a stream with local
region images and a stream with skeletal information are introduced by
extending I3D network to improve the recognition accuracy of WSLR. From the
experimental results on WLASL dataset, it is evident that the proposed method
has achieved about 15% improvement in the Top-1 accuracy than the existing
conventional methods.
- Abstract(参考訳): 近年,コンピュータビジョンコミュニティにおいて,単語レベル手話認識(WSLR)の研究が盛んになり,様々なアプローチが提案されている。
I3Dネットワークを用いた手法は,WSLRの大規模公開データセットに対して高い認識精度を実現する。
しかし、i3dを用いた方法は、シグナーの上半身の出現情報のみを利用して手話単語を認識する。
一方,wslrでは,手の形状や表情などの局所的な情報や,身体と両手の位置関係が重要である。
そこで本研究では,両手と顔の局所的画像と骨格情報を用いて,身体に対する局所的情報と両手の位置をそれぞれ捉えた。
言い換えれば,WSLRの認識精度を向上させるために,局所領域画像と骨格情報を含むストリームをI3Dネットワークを拡張して導入する,新しいマルチストリームWSLRフレームワークを提案する。
WLASLデータセットの実験結果から,提案手法は従来の手法に比べてTop-1精度が約15%向上していることが明らかとなった。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Independent Sign Language Recognition with 3D Body, Hands, and Face
Reconstruction [46.70761714133466]
独立手話認識(Independent Sign Language Recognition)は、コンピュータビジョンのいくつかの課題を組み合わせた複雑な視覚認識問題である。
3つの情報チャネルを適切に組み合わせて手話の認識を効果的に行う作業は行われていない。
SMPL-Xは,1枚の画像から3次元の身体形状,顔,手の情報を同時抽出できる,現代のパラメトリックモデルである。
論文 参考訳(メタデータ) (2020-11-24T23:50:26Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。