論文の概要: SignRep: Enhancing Self-Supervised Sign Representations
- arxiv url: http://arxiv.org/abs/2503.08529v1
- Date: Tue, 11 Mar 2025 15:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:33.510886
- Title: SignRep: Enhancing Self-Supervised Sign Representations
- Title(参考訳): SignRep: セルフスーパービジョンのサイン表現の強化
- Authors: Ryan Wong, Necati Cihan Camgoz, Richard Bowden,
- Abstract要約: 記号言語表現学習は、記号の複雑な時間的性質とラベル付きデータセットの不足により、ユニークな課題を提示する。
我々は手話表現学習のためのスケーラブルで自己指導型のフレームワークを導入する。
我々のモデルは、下流タスク中にキーポイントベースのモデルの制限を避けるため、推論中に骨格キーポイントを必要としない。
これは手話辞書の検索や手話翻訳に優れており、検索における標準的なMAE事前学習や骨格に基づく表現を超越している。
- 参考スコア(独自算出の注目度): 30.008980708977095
- License:
- Abstract: Sign language representation learning presents unique challenges due to the complex spatio-temporal nature of signs and the scarcity of labeled datasets. Existing methods often rely either on models pre-trained on general visual tasks, that lack sign-specific features, or use complex multimodal and multi-branch architectures. To bridge this gap, we introduce a scalable, self-supervised framework for sign representation learning. We leverage important inductive (sign) priors during the training of our RGB model. To do this, we leverage simple but important cues based on skeletons while pretraining a masked autoencoder. These sign specific priors alongside feature regularization and an adversarial style agnostic loss provide a powerful backbone. Notably, our model does not require skeletal keypoints during inference, avoiding the limitations of keypoint-based models during downstream tasks. When finetuned, we achieve state-of-the-art performance for sign recognition on the WLASL, ASL-Citizen and NMFs-CSL datasets, using a simpler architecture and with only a single-modality. Beyond recognition, our frozen model excels in sign dictionary retrieval and sign translation, surpassing standard MAE pretraining and skeletal-based representations in retrieval. It also reduces computational costs for training existing sign translation models while maintaining strong performance on Phoenix2014T, CSL-Daily and How2Sign.
- Abstract(参考訳): 記号言語表現学習は、記号の複雑な時空間的性質とラベル付きデータセットの不足により、ユニークな課題を提示する。
既存の手法は、一般的な視覚的タスクで事前訓練されたモデル、手話特有の特徴が欠けているモデル、複雑なマルチモーダルアーキテクチャとマルチブランチアーキテクチャのいずれかに依存していることが多い。
このギャップを埋めるために,手話表現学習のためのスケーラブルで自己指導型のフレームワークを導入する。
我々は、RGBモデルのトレーニング中に重要な帰納的(符号)プリミティブを活用する。
これを実現するために、マスク付きオートエンコーダを事前訓練しながら、スケルトンに基づくシンプルだが重要な手がかりを利用する。
これらの標識は特徴正規化と対角的スタイルの非依存的損失と共に強力なバックボーンを提供する。
特に、我々のモデルは推論中に骨格キーポイントを必要とせず、下流タスク中にキーポイントベースのモデルの制限を避ける。
WLASL, ASL-Citizen, NMFs-CSLデータセット上で, よりシンプルなアーキテクチャと単一モダリティのみを用いて, 信号認識の最先端性能を実現する。
認識以外にも,我々の凍結モデルは手話辞書検索や手話翻訳において優れており,検索における標準的なMAE事前学習や骨格に基づく表現を超越している。
また、Phoenix2014T、CSL-Daily、How2Signの強力な性能を維持しながら、既存の手話翻訳モデルのトレーニングに要する計算コストを削減している。
関連論文リスト
- Improving Continuous Sign Language Recognition with Adapted Image Models [9.366498095041814]
大規模ヴィジュアル言語モデル(例えばCLIP)は、一連の下流タスクに対して顕著な一般化性能を示している。
このような大きな視覚言語モデルを連続手話認識に適応させる際に高い効率性を実現するため、我々は新しい戦略(AdaptSign)を提案する。
AdaptSignは、既存の方法と比較して、PHOENIX14、PHOENIX14-T、CSL-Daily、CSLなどのCSLRベンチマークで優れたパフォーマンスを示すことができる。
論文 参考訳(メタデータ) (2024-04-12T03:43:37Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal [24.537234147678113]
CSLRバックボーンを強化するために,3つの補助タスクを提案する。
視覚モジュールを強制するために、キーポイント誘導空間アテンションモジュールを開発する。
視覚モジュールとシーケンシャルモジュールの間には、文埋め込み一貫性制約が課される。
本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
論文 参考訳(メタデータ) (2022-12-26T06:38:34Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign
Language Recognition [94.30084702921529]
手振りは手話において重要な役割を担っている。
現在の深層学習に基づく手話認識手法は、解釈可能性に欠ける可能性がある。
SLRに先立って手を入れた初の自己教師型事前訓練型SignBERTを導入する。
論文 参考訳(メタデータ) (2021-10-11T16:18:09Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。