論文の概要: StepNet: Spatial-temporal Part-aware Network for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2212.12857v2
- Date: Sun, 7 Apr 2024 06:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:46:40.090440
- Title: StepNet: Spatial-temporal Part-aware Network for Isolated Sign Language Recognition
- Title(参考訳): StepNet: 孤立手話認識のための時空間部分認識ネットワーク
- Authors: Xiaolong Shen, Zhedong Zheng, Yi Yang,
- Abstract要約: 本稿では,RGB の部分に基づく時空間部分認識ネットワーク (StepNet) という新しいフレームワークを提案する。
部分レベル空間モデリングは、特徴空間における手や顔などの外見に基づくプロパティを自動的にキャプチャする。
パートレベルのテンポラルモデリングは、長期のコンテキストを暗黙的に掘り下げて、時間とともに関連する属性をキャプチャします。
- 参考スコア(独自算出の注目度): 33.44126628779347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of sign language recognition (SLR) is to help those who are hard of hearing or deaf overcome the communication barrier. Most existing approaches can be typically divided into two lines, i.e., Skeleton-based and RGB-based methods, but both the two lines of methods have their limitations. Skeleton-based methods do not consider facial expressions, while RGB-based approaches usually ignore the fine-grained hand structure. To overcome both limitations, we propose a new framework called Spatial-temporal Part-aware network~(StepNet), based on RGB parts. As its name suggests, it is made up of two modules: Part-level Spatial Modeling and Part-level Temporal Modeling. Part-level Spatial Modeling, in particular, automatically captures the appearance-based properties, such as hands and faces, in the feature space without the use of any keypoint-level annotations. On the other hand, Part-level Temporal Modeling implicitly mines the long-short term context to capture the relevant attributes over time. Extensive experiments demonstrate that our StepNet, thanks to spatial-temporal modules, achieves competitive Top-1 Per-instance accuracy on three commonly-used SLR benchmarks, i.e., 56.89% on WLASL, 77.2% on NMFs-CSL, and 77.1% on BOBSL. Additionally, the proposed method is compatible with the optical flow input and can produce superior performance if fused. For those who are hard of hearing, we hope that our work can act as a preliminary step.
- Abstract(参考訳): 手話認識(SLR)の目的は、難聴者や聴覚障害者がコミュニケーション障壁を克服するのを支援することである。
既存のアプローチの多くは、通常、Skeletonベースの方法とRGBベースの方法の2行に分けられるが、どちらの方法にも制限がある。
骨格に基づく手法は表情を考慮しないが、RGBベースの手法は通常細粒な手の構造を無視する。
両制約を克服するために,RGB の部分に基づく空間的時間的部分認識ネットワーク~(StepNet) という新しいフレームワークを提案する。
名前の通り、パートレベル空間モデリングとパートレベル時間モデリングの2つのモジュールで構成されている。
特に、部分レベル空間モデリングは、キーポイントレベルのアノテーションを使わずに、特徴空間における手や顔などの外見に基づくプロパティを自動的にキャプチャする。
一方、パートレベルのテンポラルモデリングは、長期のコンテキストを暗黙的に掘り下げて、時間とともに関連する属性をキャプチャします。
我々のStepNetは、時空間モジュールのおかげで、3つのSLRベンチマーク(WLASLは56.89%、NMF-CSLは77.2%、BOBSLは77.1%)で競合するTop-1 Per-instance精度を達成した。
また, 提案手法は光フロー入力と互換性があり, 融解した場合に優れた性能が得られる。
聞き難い人には、私たちの仕事が予備的なステップとして機能することを願っています。
関連論文リスト
- Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition [10.048809585477555]
スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-19T07:42:57Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Denoised Non-Local Neural Network for Semantic Segmentation [18.84185406522064]
クラス間ノイズとクラス内ノイズをそれぞれ除去するデノナイズド非ローカネットワーク(デノナイズドNL)を提案する。
提案したNLは,都市景観における83.5%,46.69% mIoU,ADE20Kの最先端性能を達成できる。
論文 参考訳(メタデータ) (2021-10-27T06:16:31Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。