論文の概要: Multi-Modal Zero-Shot Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2109.00796v1
- Date: Thu, 2 Sep 2021 09:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 13:53:51.042025
- Title: Multi-Modal Zero-Shot Sign Language Recognition
- Title(参考訳): マルチモーダルゼロショット手話認識
- Authors: Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Mohammad Sabokrou
- Abstract要約: マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
- 参考スコア(独自算出の注目度): 51.07720650677784
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-Shot Learning (ZSL) has rapidly advanced in recent years. Towards
overcoming the annotation bottleneck in the Sign Language Recognition (SLR), we
explore the idea of Zero-Shot Sign Language Recognition (ZS-SLR) with no
annotated visual examples, by leveraging their textual descriptions. In this
way, we propose a multi-modal Zero-Shot Sign Language Recognition (ZS-SLR)
model harnessing from the complementary capabilities of deep features fused
with the skeleton-based ones. A Transformer-based model along with a C3D model
is used for hand detection and deep features extraction, respectively. To make
a trade-off between the dimensionality of the skeletonbased and deep features,
we use an Auto-Encoder (AE) on top of the Long Short Term Memory (LSTM)
network. Finally, a semantic space is used to map the visual features to the
lingual embedding of the class labels, achieved via the Bidirectional Encoder
Representations from Transformers (BERT) model. Results on four large-scale
datasets, RKS-PERSIANSIGN, First-Person, ASLVID, and isoGD, show the
superiority of the proposed model compared to state-of-the-art alternatives in
ZS-SLR.
- Abstract(参考訳): ゼロショット学習(ZSL)は近年急速に進歩している。
署名言語認識(SLR)におけるアノテーションのボトルネックを克服するために,注釈付き視覚例のないゼロショット手話認識(ZS-SLR)の考え方を,テキスト記述を活用して検討する。
そこで本稿では, 骨格をベースとした深部特徴の補完機能を利用した多モードゼロショット手話認識(ZS-SLR)モデルを提案する。
C3Dモデルとともにトランスフォーマーベースのモデルを使用して手検出と深部特徴抽出を行う。
スケルトンベースの次元と深い特徴のトレードオフを実現するため、Long Short Term Memory(LSTM)ネットワーク上にオートエンコーダ(AE)を使用する。
最後に、意味空間は、トランスフォーマー(bert)モデルからの双方向エンコーダ表現によって達成されるクラスラベルのリンガル埋め込みに視覚特徴をマッピングするために使用される。
4つの大規模データセット、RKS-PERSIANSIGN, First-Person, ASLVID, isoGDの結果は、ZS-SLRの最先端の代替モデルと比較して提案モデルの優位性を示している。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos [49.337912335944026]
ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
論文 参考訳(メタデータ) (2021-08-23T10:48:18Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - PiSLTRc: Position-informed Sign Language Transformer with Content-aware
Convolution [0.42970700836450487]
本稿では,2つの特徴を持つ新しいモデルアーキテクチャ,すなわちPiSLTRcを提案する。
我々は,新しいコンテンツ認識近傍収集手法を用いて,関連性のある特徴を明示的に選択する。
これらの特徴を、位置インフォームされた時間的畳み込み層で集約し、ロバストな近傍強調符号表現を生成する。
バニラトランスフォーマーモデルと比較して、我々のモデルは3つの大規模手話ベンチマークで一貫して性能が向上する。
論文 参考訳(メタデータ) (2021-07-27T05:01:27Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。