論文の概要: SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition
- arxiv url: http://arxiv.org/abs/2110.05382v1
- Date: Mon, 11 Oct 2021 16:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:31:24.845557
- Title: SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition
- Title(参考訳): SignBERT:手話認識のための手話認識の事前学習
- Authors: Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li
- Abstract要約: 手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
- 参考スコア(独自算出の注目度): 94.30084702921529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture serves as a critical role in sign language. Current
deep-learning-based sign language recognition (SLR) methods may suffer
insufficient interpretability and overfitting due to limited sign data sources.
In this paper, we introduce the first self-supervised pre-trainable SignBERT
with incorporated hand prior for SLR. SignBERT views the hand pose as a visual
token, which is derived from an off-the-shelf pose extractor. The visual tokens
are then embedded with gesture state, temporal and hand chirality information.
To take full advantage of available sign data sources, SignBERT first performs
self-supervised pre-training by masking and reconstructing visual tokens.
Jointly with several mask modeling strategies, we attempt to incorporate hand
prior in a model-aware method to better model hierarchical context over the
hand sequence. Then with the prediction head added, SignBERT is fine-tuned to
perform the downstream SLR task. To validate the effectiveness of our method on
SLR, we perform extensive experiments on four public benchmark datasets, i.e.,
NMFs-CSL, SLR500, MSASL and WLASL. Experiment results demonstrate the
effectiveness of both self-supervised learning and imported hand prior.
Furthermore, we achieve state-of-the-art performance on all benchmarks with a
notable gain.
- Abstract(参考訳): 手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識(SLR)手法は,手話データソースが限られているため,解釈性や過度な適合性に欠ける可能性がある。
本稿では,SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを紹介する。
signbertは手のポーズを視覚的なトークンとして捉えており、これは既製のポーズ抽出器から派生している。
視覚トークンはジェスチャー状態、時間的情報、手のキラリティー情報と共に埋め込まれる。
SignBERTは、利用可能なサインデータソースを最大限に活用するために、まず、マスキングと視覚トークンの再構築による自己教師付き事前トレーニングを実行する。
いくつかのマスキングモデリング戦略と共同で,ハンドプリアーをモデル認識手法に組み込むことにより,ハンドシーケンス上の階層的コンテキストをよりよくモデル化する。
そして、予測ヘッドを追加し、SignBERTを微調整して下流SLRタスクを実行する。
SLRにおける本手法の有効性を検証するため,NMFs-CSL,SLR500,MSASL,WLASLの4つの公開ベンチマークデータセットに対して広範な実験を行った。
実験結果から, 自己指導型学習と輸入手の両方の有効性が示された。
さらに,各ベンチマークの最先端性能も顕著に向上した。
関連論文リスト
- Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。
まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。
従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文 参考訳(メタデータ) (2023-12-20T10:53:06Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。