論文の概要: Isolated Sign Language Recognition based on Tree Structure Skeleton
Images
- arxiv url: http://arxiv.org/abs/2304.05403v1
- Date: Mon, 10 Apr 2023 01:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 17:13:01.603402
- Title: Isolated Sign Language Recognition based on Tree Structure Skeleton
Images
- Title(参考訳): 木構造骨格画像に基づく孤立手話認識
- Authors: David Laines, Gissella Bejarano, Miguel Gonzalez-Mendoza, Gilberto
Ochoa-Ruiz
- Abstract要約: そこで我々は,手話認識のための骨格型モデルの精度を向上させるために,Tree Dense Structure Image (TSSI) を代替入力として用いた。
このような入力を用いてSignNet-121をトレーニングし、他のスケルトンベースのディープラーニング手法と比較した。
我々のモデル(SL-TSSI-DenseNet)は、他の骨格モデルの現状を克服する。
- 参考スコア(独自算出の注目度): 2.179313476241343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Recognition (SLR) systems aim to be embedded in video stream
platforms to recognize the sign performed in front of a camera. SLR research
has taken advantage of recent advances in pose estimation models to use
skeleton sequences estimated from videos instead of RGB information to predict
signs. This approach can make HAR-related tasks less complex and more robust to
diverse backgrounds, lightning conditions, and physical appearances. In this
work, we explore the use of a spatio-temporal skeleton representation such as
Tree Structure Skeleton Image (TSSI) as an alternative input to improve the
accuracy of skeleton-based models for SLR. TSSI converts a skeleton sequence
into an RGB image where the columns represent the joints of the skeleton in a
depth-first tree traversal order, the rows represent the temporal evolution of
the joints, and the three channels represent the (x, y, z) coordinates of the
joints. We trained a DenseNet-121 using this type of input and compared it with
other skeleton-based deep learning methods using a large-scale American Sign
Language (ASL) dataset, WLASL. Our model (SL-TSSI-DenseNet) overcomes the
state-of-the-art of other skeleton-based models. Moreover, when including data
augmentation our proposal achieves better results than both skeleton-based and
RGB-based models. We evaluated the effectiveness of our model on the Ankara
University Turkish Sign Language (TSL) dataset, AUTSL, and a Mexican Sign
Language (LSM) dataset. On the AUTSL dataset, the model achieves similar
results to the state-of-the-art of other skeleton-based models. On the LSM
dataset, the model achieves higher results than the baseline. Code has been
made available at: https://github.com/davidlainesv/SL-TSSI-DenseNet.
- Abstract(参考訳): サイン言語認識(SLR)システムは、カメラの前で実行されるサインを認識するために、ビデオストリームプラットフォームに埋め込まれることを目的としている。
SLR研究は、RGB情報の代わりにビデオから推定される骨格配列を用いてサインを予測するためのポーズ推定モデルの最近の進歩を活用している。
このアプローチは、HAR関連のタスクをより複雑にし、多様な背景、雷の状態、物理的な外観に対してより堅牢にする。
本研究では,木構造骨格画像(tssi)のような時空間的骨格表現を代替入力として用いることにより,slrのスケルトンベースモデルの精度を向上させる。
TSSIは、スケルトン配列をRGB画像に変換し、このカラムは深さ優先の木の断面順で骨格の関節を表し、行は関節の時間的進化を表し、3つのチャネルは関節の(x, y, z)座標を表す。
我々は,このタイプの入力を用いてDenseNet-121を訓練し,大規模なAmerican Sign Language(ASL)データセットであるWLASLを用いて他の骨格に基づくディープラーニング手法と比較した。
我々のモデル(SL-TSSI-DenseNet)は、他の骨格モデルの現状を克服する。
さらに、データ拡張を含めると、スケルトンベースのモデルとRGBベースのモデルよりも良い結果が得られる。
我々は, アンカラ大学トルコ手言語(TSL)データセット, AUTSL, メキシコ手言語(LSM)データセットに対して, モデルの有効性を評価した。
AUTSLデータセットでは、他のスケルトンベースのモデルと同様の結果が得られる。
lsmデータセットでは、モデルはベースラインよりも高い結果を得る。
コードはhttps://github.com/davidlainesv/SL-TSSI-DenseNetで公開されている。
関連論文リスト
- SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences [2.0257616108612373]
我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
論文 参考訳(メタデータ) (2024-05-05T15:50:02Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - Learning Discriminative Representations for Skeleton Based Action
Recognition [49.45405879193866]
本稿では,骨格の識別表現を得るために,補助機能改善ヘッド(FRヘッド)を提案する。
提案したモデルでは,最先端手法による競合結果が得られ,あいまいなサンプルの識別に役立てることができる。
論文 参考訳(メタデータ) (2023-03-07T08:37:48Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z) - Skeleton-based Action Recognition via Spatial and Temporal Transformer
Networks [12.06555892772049]
本研究では,トランスフォーマーの自己アテンション演算子を用いて,関節間の依存関係をモデル化する空間-テンポラルトランスフォーマーネットワークを提案する。
提案したST-TRは,関節座標を入力として使用する場合のすべてのデータセットの最先端性能を達成し,骨情報を追加する場合の最先端特性と一致させる。
論文 参考訳(メタデータ) (2020-08-17T15:25:40Z) - SkeletonNet: A Topology-Preserving Solution for Learning Mesh
Reconstruction of Object Surfaces from RGB Images [85.66560542483286]
本稿では,RGB画像から3次元物体表面再構成を学習する上での課題に焦点を当てる。
我々は,SkeGCNNとSkeDISNの2つのモデルを提案する。
提案するSkeletonNetの有効性を検証するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2020-08-13T07:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。