論文の概要: Global-local Enhancement Network for NMFs-aware Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2008.10428v2
- Date: Mon, 16 Aug 2021 03:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 11:58:07.888686
- Title: Global-local Enhancement Network for NMFs-aware Sign Language
Recognition
- Title(参考訳): NMFs対応手話認識のためのグローバルローカル拡張ネットワーク
- Authors: Hezhen Hu, Wengang Zhou, Junfu Pu, Houqiang Li
- Abstract要約: グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
- 参考スコア(独自算出の注目度): 135.30357113518127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) is a challenging problem, involving complex
manual features, i.e., hand gestures, and fine-grained non-manual features
(NMFs), i.e., facial expression, mouth shapes, etc. Although manual features
are dominant, non-manual features also play an important role in the expression
of a sign word. Specifically, many sign words convey different meanings due to
non-manual features, even though they share the same hand gestures. This
ambiguity introduces great challenges in the recognition of sign words. To
tackle the above issue, we propose a simple yet effective architecture called
Global-local Enhancement Network (GLE-Net), including two mutually promoted
streams towards different crucial aspects of SLR. Of the two streams, one
captures the global contextual relationship, while the other stream captures
the discriminative fine-grained cues. Moreover, due to the lack of datasets
explicitly focusing on this kind of features, we introduce the first
non-manual-features-aware isolated Chinese sign language dataset~(NMFs-CSL)
with a total vocabulary size of 1,067 sign words in daily life. Extensive
experiments on NMFs-CSL and SLR500 datasets demonstrate the effectiveness of
our method.
- Abstract(参考訳): 手話認識(slr)は複雑な手話の特徴(手のジェスチャー)と細かい粒度の非操作特徴(nmf)、すなわち表情や口の形などを含む困難な問題である。
手動の特徴は支配的であるが、手動の特徴は手話表現において重要な役割を果たす。
具体的には、手振りが同じであっても、手書き以外の特徴によって、多くの手話は異なる意味を伝達する。
この曖昧さは手話の認識に大きな課題をもたらす。
上記の問題に取り組むため,我々はグローバルローカル拡張ネットワーク(gle-net)と呼ばれる,slrの異なる重要な側面に向けて相互にプロモートされた2つのストリームを含む,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち1つはグローバルコンテキストの関係を捉え、もう1つのストリームは識別可能なきめ細かい手がかりを捉えます。
さらに,このような特徴に明示的に焦点を絞ったデータセットの欠如により,日常的な語彙サイズが1,067の中国語手話データセット(nmfs-csl)を導入する。
NMFs-CSLおよびSLR500データセットの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。