論文の概要: SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition
- arxiv url: http://arxiv.org/abs/2110.05382v1
- Date: Mon, 11 Oct 2021 16:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:31:24.845557
- Title: SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition
- Title(参考訳): SignBERT:手話認識のための手話認識の事前学習
- Authors: Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li
- Abstract要約: 手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
- 参考スコア(独自算出の注目度): 94.30084702921529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture serves as a critical role in sign language. Current
deep-learning-based sign language recognition (SLR) methods may suffer
insufficient interpretability and overfitting due to limited sign data sources.
In this paper, we introduce the first self-supervised pre-trainable SignBERT
with incorporated hand prior for SLR. SignBERT views the hand pose as a visual
token, which is derived from an off-the-shelf pose extractor. The visual tokens
are then embedded with gesture state, temporal and hand chirality information.
To take full advantage of available sign data sources, SignBERT first performs
self-supervised pre-training by masking and reconstructing visual tokens.
Jointly with several mask modeling strategies, we attempt to incorporate hand
prior in a model-aware method to better model hierarchical context over the
hand sequence. Then with the prediction head added, SignBERT is fine-tuned to
perform the downstream SLR task. To validate the effectiveness of our method on
SLR, we perform extensive experiments on four public benchmark datasets, i.e.,
NMFs-CSL, SLR500, MSASL and WLASL. Experiment results demonstrate the
effectiveness of both self-supervised learning and imported hand prior.
Furthermore, we achieve state-of-the-art performance on all benchmarks with a
notable gain.
- Abstract(参考訳): 手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識(SLR)手法は,手話データソースが限られているため,解釈性や過度な適合性に欠ける可能性がある。
本稿では,SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを紹介する。
signbertは手のポーズを視覚的なトークンとして捉えており、これは既製のポーズ抽出器から派生している。
視覚トークンはジェスチャー状態、時間的情報、手のキラリティー情報と共に埋め込まれる。
SignBERTは、利用可能なサインデータソースを最大限に活用するために、まず、マスキングと視覚トークンの再構築による自己教師付き事前トレーニングを実行する。
いくつかのマスキングモデリング戦略と共同で,ハンドプリアーをモデル認識手法に組み込むことにより,ハンドシーケンス上の階層的コンテキストをよりよくモデル化する。
そして、予測ヘッドを追加し、SignBERTを微調整して下流SLRタスクを実行する。
SLRにおける本手法の有効性を検証するため,NMFs-CSL,SLR500,MSASL,WLASLの4つの公開ベンチマークデータセットに対して広範な実験を行った。
実験結果から, 自己指導型学習と輸入手の両方の有効性が示された。
さらに,各ベンチマークの最先端性能も顕著に向上した。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。