論文の概要: SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding
- arxiv url: http://arxiv.org/abs/2305.04868v1
- Date: Mon, 8 May 2023 17:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:32:33.886262
- Title: SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding
- Title(参考訳): SignBERT+:手話理解のための手動モデル対応自己教師型事前学習
- Authors: Hezhen Hu, Weichao Zhao, Wengang Zhou, Houqiang Li
- Abstract要約: 手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
- 参考スコア(独自算出の注目度): 132.78015553111234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gesture serves as a crucial role during the expression of sign language.
Current deep learning based methods for sign language understanding (SLU) are
prone to over-fitting due to insufficient sign data resource and suffer limited
interpretability. In this paper, we propose the first self-supervised
pre-trainable SignBERT+ framework with model-aware hand prior incorporated. In
our framework, the hand pose is regarded as a visual token, which is derived
from an off-the-shelf detector. Each visual token is embedded with gesture
state and spatial-temporal position encoding. To take full advantage of current
sign data resource, we first perform self-supervised learning to model its
statistics. To this end, we design multi-level masked modeling strategies
(joint, frame and clip) to mimic common failure detection cases. Jointly with
these masked modeling strategies, we incorporate model-aware hand prior to
better capture hierarchical context over the sequence. After the pre-training,
we carefully design simple yet effective prediction heads for downstream tasks.
To validate the effectiveness of our framework, we perform extensive
experiments on three main SLU tasks, involving isolated and continuous sign
language recognition (SLR), and sign language translation (SLT). Experimental
results demonstrate the effectiveness of our method, achieving new
state-of-the-art performance with a notable gain.
- Abstract(参考訳): 手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にあり,解釈可能性に限界がある。
本稿では,モデル認識ハンドを組み込んだ,自己学習型SignBERT+フレームワークを提案する。
我々のフレームワークでは、手の位置は視覚トークンと見なされ、これは市販の検出器から派生している。
各視覚トークンにはジェスチャー状態と時空間位置エンコーディングが組み込まれている。
現在の手話データ資源を最大限活用するために,まず自己教師付き学習を行い,統計をモデル化する。
この目的のために我々は,一般的な故障検出事例を模倣するマルチレベルマスキングモデリング戦略(ジョイント,フレーム,クリップ)を設計した。
これらのマスク付きモデリング戦略と連動して、シーケンス上の階層的コンテキストをよりよく捉えるために、モデル認識ハンドを組み込む。
事前学習後、下流タスクの簡易かつ効果的な予測ヘッドを慎重に設計する。
提案手法の有効性を検証するために,slr (s isolated and continuous sign language recognition) とslt (sign language translation) の3つの主要なsluタスクについて広範な実験を行った。
実験の結果,本手法の有効性が示され,新たな最先端性能が得られた。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - BEST: BERT Pre-Training for Sign Language Recognition with Coupling
Tokenization [135.73436686653315]
我々は、BERTの事前学習の成功を活用し、手話認識(SLR)モデルを肥大化させるために、ドメイン固有の統計モデルを構築している。
手と体が手話表現の優位性を考えると、それらを三重奏単位として整理し、トランスフォーマーのバックボーンに供給する。
劣化した入力シーケンスからマスク三重項ユニットを再構成して事前学習を行う。
意味的ジェスチャー/身体状態を表すポーズ三重奏ユニットから離散擬似ラベルを適応的に抽出する。
論文 参考訳(メタデータ) (2023-02-10T06:23:44Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。