論文の概要: ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos
- arxiv url: http://arxiv.org/abs/2108.10059v1
- Date: Mon, 23 Aug 2021 10:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:30:50.020802
- Title: ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos
- Title(参考訳): ZS-SLR:RGB-Dビデオからのゼロショット手話認識
- Authors: Razieh Rastgoo, Kourosh Kiani, Sergio Escalera
- Abstract要約: ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
- 参考スコア(独自算出の注目度): 49.337912335944026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign Language Recognition (SLR) is a challenging research area in computer
vision. To tackle the annotation bottleneck in SLR, we formulate the problem of
Zero-Shot Sign Language Recognition (ZS-SLR) and propose a two-stream model
from two input modalities: RGB and Depth videos. To benefit from the vision
Transformer capabilities, we use two vision Transformer models, for human
detection and visual features representation. We configure a transformer
encoder-decoder architecture, as a fast and accurate human detection model, to
overcome the challenges of the current human detection models. Considering the
human keypoints, the detected human body is segmented into nine parts. A
spatio-temporal representation from human body is obtained using a vision
Transformer and a LSTM network. A semantic space maps the visual features to
the lingual embedding of the class labels via a Bidirectional Encoder
Representations from Transformers (BERT) model. We evaluated the proposed model
on four datasets, Montalbano II, MSR Daily Activity 3D, CAD-60, and NTU-60,
obtaining state-of-the-art results compared to state-of-the-art ZS-SLR models.
- Abstract(参考訳): 手話認識(SLR)はコンピュータビジョンにおいて難しい研究分野である。
SLRにおけるアノテーションボトルネックに対処するため、ZES-SLR(Zero-Shot Sign Language Recognition)の問題を定式化し、RGBとDepthの2つの入力モードから2ストリームモデルを提案する。
視覚トランスフォーマビリティの恩恵を受けるために,人間検出と視覚特徴表現の2つの視覚トランスフォーマモデルを用いた。
トランスフォーマエンコーダ-デコーダアーキテクチャを高速かつ高精度な人間検出モデルとして構成し,現在の人間検出モデルの課題を克服する。
人間のキーポイントを考えると、検出された人体は9つの部分に分けられる。
視覚変換器とLSTMネットワークを用いて人体からの時空間表現を得る。
セマンティックスペースは、トランスフォーマー(BERT)モデルによる双方向エンコーダ表現を通じて、クラスラベルの言語埋め込みに視覚的特徴をマッピングする。
提案手法をモンタルバーノII, MSR Daily Activity 3D, CAD-60, NTU-60の4つのデータセットで評価し, 最先端のZS-SLRモデルと比較した。
関連論文リスト
- A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning [0.0]
本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。
注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
論文 参考訳(メタデータ) (2023-03-05T11:45:53Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - An Empirical Study Of Self-supervised Learning Approaches For Object
Detection With Transformers [0.0]
画像再構成,マスク画像モデリング,ジグソーに基づく自己監督手法について検討する。
iSAIDデータセットの予備実験は、事前学習とマルチタスク学習の両方において、初期のエポックにおけるDETRのより高速な収束を示す。
論文 参考訳(メタデータ) (2022-05-11T14:39:27Z) - Self-supervised Vision Transformers for Joint SAR-optical Representation
Learning [19.316112344900638]
自己教師付き学習(SSL)はリモートセンシングと地球観測に大きな関心を集めている。
共同SAR-光表現学習における視覚変換器(ViT)の可能性について検討する。
最先端のSSLアルゴリズムであるDINOに基づいて、SARと光学画像を組み合わせて、全てのチャネルを統一的な入力に結合する。
論文 参考訳(メタデータ) (2022-04-11T19:42:53Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。