論文の概要: Global-local Enhancement Network for NMFs-aware Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2008.10428v2
- Date: Mon, 16 Aug 2021 03:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 11:58:07.888686
- Title: Global-local Enhancement Network for NMFs-aware Sign Language
Recognition
- Title(参考訳): NMFs対応手話認識のためのグローバルローカル拡張ネットワーク
- Authors: Hezhen Hu, Wengang Zhou, Junfu Pu, Houqiang Li
- Abstract要約: グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
- 参考スコア(独自算出の注目度): 135.30357113518127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) is a challenging problem, involving complex
manual features, i.e., hand gestures, and fine-grained non-manual features
(NMFs), i.e., facial expression, mouth shapes, etc. Although manual features
are dominant, non-manual features also play an important role in the expression
of a sign word. Specifically, many sign words convey different meanings due to
non-manual features, even though they share the same hand gestures. This
ambiguity introduces great challenges in the recognition of sign words. To
tackle the above issue, we propose a simple yet effective architecture called
Global-local Enhancement Network (GLE-Net), including two mutually promoted
streams towards different crucial aspects of SLR. Of the two streams, one
captures the global contextual relationship, while the other stream captures
the discriminative fine-grained cues. Moreover, due to the lack of datasets
explicitly focusing on this kind of features, we introduce the first
non-manual-features-aware isolated Chinese sign language dataset~(NMFs-CSL)
with a total vocabulary size of 1,067 sign words in daily life. Extensive
experiments on NMFs-CSL and SLR500 datasets demonstrate the effectiveness of
our method.
- Abstract(参考訳): 手話認識(slr)は複雑な手話の特徴(手のジェスチャー)と細かい粒度の非操作特徴(nmf)、すなわち表情や口の形などを含む困難な問題である。
手動の特徴は支配的であるが、手動の特徴は手話表現において重要な役割を果たす。
具体的には、手振りが同じであっても、手書き以外の特徴によって、多くの手話は異なる意味を伝達する。
この曖昧さは手話の認識に大きな課題をもたらす。
上記の問題に取り組むため,我々はグローバルローカル拡張ネットワーク(gle-net)と呼ばれる,slrの異なる重要な側面に向けて相互にプロモートされた2つのストリームを含む,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち1つはグローバルコンテキストの関係を捉え、もう1つのストリームは識別可能なきめ細かい手がかりを捉えます。
さらに,このような特徴に明示的に焦点を絞ったデータセットの欠如により,日常的な語彙サイズが1,067の中国語手話データセット(nmfs-csl)を導入する。
NMFs-CSLおよびSLR500データセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。