論文の概要: Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2403.12519v1
- Date: Tue, 19 Mar 2024 07:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:02:36.248338
- Title: Dynamic Spatial-Temporal Aggregation for Skeleton-Aware Sign Language Recognition
- Title(参考訳): スケルトン対応手話認識のための動的時空間集約
- Authors: Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng,
- Abstract要約: スケルトン対応手話認識は, 背景情報の影響を受けないままでいられるため, 人気が高まっている。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
本稿では,入力に敏感な連接関係を構築する2つの同時分岐からなる空間構造を提案する。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
- 参考スコア(独自算出の注目度): 10.048809585477555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-aware sign language recognition (SLR) has gained popularity due to its ability to remain unaffected by background information and its lower computational requirements. Current methods utilize spatial graph modules and temporal modules to capture spatial and temporal features, respectively. However, their spatial graph modules are typically built on fixed graph structures such as graph convolutional networks or a single learnable graph, which only partially explore joint relationships. Additionally, a simple temporal convolution kernel is used to capture temporal information, which may not fully capture the complex movement patterns of different signers. To overcome these limitations, we propose a new spatial architecture consisting of two concurrent branches, which build input-sensitive joint relationships and incorporates specific domain knowledge for recognition, respectively. These two branches are followed by an aggregation process to distinguishe important joint connections. We then propose a new temporal module to model multi-scale temporal information to capture complex human dynamics. Our method achieves state-of-the-art accuracy compared to previous skeleton-aware methods on four large-scale SLR benchmarks. Moreover, our method demonstrates superior accuracy compared to RGB-based methods in most cases while requiring much fewer computational resources, bringing better accuracy-computation trade-off. Code is available at https://github.com/hulianyuyy/DSTA-SLR.
- Abstract(参考訳): スケルトン対応手話認識(SLR)は、背景情報や低い計算要求の影響を受けない能力で人気を博している。
現在の手法では、空間グラフモジュールと時空間モジュールを使用して、それぞれ空間的特徴と時空間的特徴をキャプチャする。
しかし、それらの空間グラフモジュールは通常、グラフ畳み込みネットワークや単一の学習可能なグラフのような固定されたグラフ構造の上に構築され、部分的には結合関係を探索するだけである。
さらに、単純な時間的畳み込みカーネルは、異なるシグナの複雑な動きパターンを完全にキャプチャできない時間的情報をキャプチャするために使用される。
これらの制約を克服するために,入力に敏感な連接関係を構築し,それぞれに認識のための特定のドメイン知識を組み込む2つの同時分岐からなる空間アーキテクチャを提案する。
これら2つの枝は、重要な関節接続を区別する集約プロセスによって続く。
そこで我々は,複雑な人間のダイナミクスを捉えるために,マルチスケールの時間情報をモデル化する新しい時間モジュールを提案する。
提案手法は,4つの大規模SLRベンチマークにおいて,従来のスケルトン認識手法と比較して,最先端の精度を実現する。
さらに,計算資源の削減を図り,精度と計算のトレードオフが向上する一方,ほとんどの場合においてRGB法よりも精度がよいことを示す。
コードはhttps://github.com/hulianyuyy/DSTA-SLRで入手できる。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix [3.529869282529924]
本稿では,時間的依存を考慮に入れた新たなエンドツーエンド学習アーキテクチャを提案する。
提案手法は,SurgVisDomやC2D2などのベンチマークデータセット上での優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-04T06:42:33Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Multi-Scale Spatial Temporal Graph Convolutional Network for
Skeleton-Based Action Recognition [13.15374205970988]
本稿では,マルチスケール空間グラフ畳み込み (MS-GC) モジュールとマルチスケール時間グラフ畳み込み (MT-GC) モジュールを提案する。
MS-GCおよびMT-GCモジュールは対応する局所グラフ畳み込みをサブグラフ畳み込みの集合に分解し、階層的残差アーキテクチャを形成する。
本稿では,マルチスケールな時空間グラフ畳み込みネットワーク(MST-GCN)を提案する。
論文 参考訳(メタデータ) (2022-06-27T03:17:33Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Connecting the Dots: Multivariate Time Series Forecasting with Graph
Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。
グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。
提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2020-05-24T04:02:18Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。