論文の概要: StepNet: Spatial-temporal Part-aware Network for Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2212.12857v1
- Date: Sun, 25 Dec 2022 05:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:44:26.282416
- Title: StepNet: Spatial-temporal Part-aware Network for Sign Language
Recognition
- Title(参考訳): StepNet:手話認識のための時空間部分認識ネットワーク
- Authors: Xiaolong Shen, Zhedong Zheng and Yi Yang
- Abstract要約: 本稿では,RGB の部分に基づく空間時空間パートアウェアネットワーク (StepNet) を提案する。
StepNetは2つのモジュールで構成されている。
実験により, 時空間モジュールによるStepNetは, 広く使用されている3つのSLRベンチマークにおいて, 競合するTop-1 Per-instance精度を実現することがわかった。
- 参考スコア(独自算出の注目度): 41.727205371375234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) aims to overcome the communication barrier
for the people with deafness or the people with hard hearing. Most existing
approaches can be typically divided into two lines, i.e., Skeleton-based and
RGB-based methods, but both the two lines of methods have their limitations.
RGB-based approaches usually overlook the fine-grained hand structure, while
Skeleton-based methods do not take the facial expression into account. In
attempts to address both limitations, we propose a new framework named
Spatial-temporal Part-aware network (StepNet), based on RGB parts. As the name
implies, StepNet consists of two modules: Part-level Spatial Modeling and
Part-level Temporal Modeling. Particularly, without using any keypoint-level
annotations, Part-level Spatial Modeling implicitly captures the
appearance-based properties, such as hands and faces, in the feature space. On
the other hand, Part-level Temporal Modeling captures the pertinent properties
over time by implicitly mining the long-short term context. Extensive
experiments show that our StepNet, thanks to Spatial-temporal modules, achieves
competitive Top-1 Per-instance accuracy on three widely-used SLR benchmarks,
i.e., 56.89% on WLASL, 77.2% on NMFs-CSL, and 77.1% on BOBSL. Moreover, the
proposed method is compatible with the optical flow input, and can yield higher
performance if fused. We hope that this work can serve as a preliminary step
for the people with deafness.
- Abstract(参考訳): 手話認識(SLR)は、難聴者や難聴者のコミュニケーション障壁を克服することを目的としている。
既存のアプローチの多くは、通常、Skeletonベースの方法とRGBベースの方法の2行に分けられるが、どちらの方法にも制限がある。
RGBベースのアプローチは通常、きめ細かい手の構造を見落としているが、Skeletonベースの手法は表情を考慮に入れない。
両制約に対処するために,RGB の部分に基づく時空間部分認識ネットワーク (StepNet) という新しいフレームワークを提案する。
名前の通り、stepnet は part-level spatial modeling と part-level temporal modeling の2つのモジュールで構成されている。
特に、キーポイントレベルのアノテーションを使わずに、部分レベルの空間モデリングは、特徴空間において、手や顔といった外観ベースの特性を暗黙的に捉えます。
一方、パートレベルの時間的モデリングは、長期間のコンテキストを暗黙的にマイニングすることで、時間とともに関連する特性をキャプチャする。
我々のStepNetは時空間モジュールのおかげで、広範に使用されている3つのSLRベンチマーク(WLASLは56.89%、NMF-CSLは77.2%、BOBSLは77.1%)で競合するTop-1 Per-instance精度を達成した。
さらに,提案手法は光フロー入力と互換性があり,融解した場合に高い性能が得られる。
この作業が難聴者の予備的なステップになることを期待しています。
関連論文リスト
- Explore Human Parsing Modality for Action Recognition [17.624946657761996]
我々はEnsemble Human Parsing and Pose Network(EPP-Net)と呼ばれる新しいデュアルブランチフレームワークを提案する。
EPP-Netは、スケルトンと人間の解析モダリティの両方を行動認識に利用した最初の企業である。
論文 参考訳(メタデータ) (2024-01-04T08:43:41Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Multi-scale temporal network for continuous sign language recognition [10.920363368754721]
連続手話認識は,手話データの時間的順序に関する正確なアノテーションがないため,困難な研究課題である。
本稿では,より正確な時間的特徴を抽出するマルチスケール時間的ネットワーク(MSTNet)を提案する。
2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2022-04-08T06:14:22Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Denoised Non-Local Neural Network for Semantic Segmentation [18.84185406522064]
クラス間ノイズとクラス内ノイズをそれぞれ除去するデノナイズド非ローカネットワーク(デノナイズドNL)を提案する。
提案したNLは,都市景観における83.5%,46.69% mIoU,ADE20Kの最先端性能を達成できる。
論文 参考訳(メタデータ) (2021-10-27T06:16:31Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。