論文の概要: StepNet: Spatial-temporal Part-aware Network for Sign Language
Recognition
- arxiv url: http://arxiv.org/abs/2212.12857v1
- Date: Sun, 25 Dec 2022 05:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:44:26.282416
- Title: StepNet: Spatial-temporal Part-aware Network for Sign Language
Recognition
- Title(参考訳): StepNet:手話認識のための時空間部分認識ネットワーク
- Authors: Xiaolong Shen, Zhedong Zheng and Yi Yang
- Abstract要約: 本稿では,RGB の部分に基づく空間時空間パートアウェアネットワーク (StepNet) を提案する。
StepNetは2つのモジュールで構成されている。
実験により, 時空間モジュールによるStepNetは, 広く使用されている3つのSLRベンチマークにおいて, 競合するTop-1 Per-instance精度を実現することがわかった。
- 参考スコア(独自算出の注目度): 41.727205371375234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition (SLR) aims to overcome the communication barrier
for the people with deafness or the people with hard hearing. Most existing
approaches can be typically divided into two lines, i.e., Skeleton-based and
RGB-based methods, but both the two lines of methods have their limitations.
RGB-based approaches usually overlook the fine-grained hand structure, while
Skeleton-based methods do not take the facial expression into account. In
attempts to address both limitations, we propose a new framework named
Spatial-temporal Part-aware network (StepNet), based on RGB parts. As the name
implies, StepNet consists of two modules: Part-level Spatial Modeling and
Part-level Temporal Modeling. Particularly, without using any keypoint-level
annotations, Part-level Spatial Modeling implicitly captures the
appearance-based properties, such as hands and faces, in the feature space. On
the other hand, Part-level Temporal Modeling captures the pertinent properties
over time by implicitly mining the long-short term context. Extensive
experiments show that our StepNet, thanks to Spatial-temporal modules, achieves
competitive Top-1 Per-instance accuracy on three widely-used SLR benchmarks,
i.e., 56.89% on WLASL, 77.2% on NMFs-CSL, and 77.1% on BOBSL. Moreover, the
proposed method is compatible with the optical flow input, and can yield higher
performance if fused. We hope that this work can serve as a preliminary step
for the people with deafness.
- Abstract(参考訳): 手話認識(SLR)は、難聴者や難聴者のコミュニケーション障壁を克服することを目的としている。
既存のアプローチの多くは、通常、Skeletonベースの方法とRGBベースの方法の2行に分けられるが、どちらの方法にも制限がある。
RGBベースのアプローチは通常、きめ細かい手の構造を見落としているが、Skeletonベースの手法は表情を考慮に入れない。
両制約に対処するために,RGB の部分に基づく時空間部分認識ネットワーク (StepNet) という新しいフレームワークを提案する。
名前の通り、stepnet は part-level spatial modeling と part-level temporal modeling の2つのモジュールで構成されている。
特に、キーポイントレベルのアノテーションを使わずに、部分レベルの空間モデリングは、特徴空間において、手や顔といった外観ベースの特性を暗黙的に捉えます。
一方、パートレベルの時間的モデリングは、長期間のコンテキストを暗黙的にマイニングすることで、時間とともに関連する特性をキャプチャする。
我々のStepNetは時空間モジュールのおかげで、広範に使用されている3つのSLRベンチマーク(WLASLは56.89%、NMF-CSLは77.2%、BOBSLは77.1%)で競合するTop-1 Per-instance精度を達成した。
さらに,提案手法は光フロー入力と互換性があり,融解した場合に高い性能が得られる。
この作業が難聴者の予備的なステップになることを期待しています。
関連論文リスト
- Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Denoised Non-Local Neural Network for Semantic Segmentation [18.84185406522064]
クラス間ノイズとクラス内ノイズをそれぞれ除去するデノナイズド非ローカネットワーク(デノナイズドNL)を提案する。
提案したNLは,都市景観における83.5%,46.69% mIoU,ADE20Kの最先端性能を達成できる。
論文 参考訳(メタデータ) (2021-10-27T06:16:31Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。