論文の概要: Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal
- arxiv url: http://arxiv.org/abs/2212.13023v1
- Date: Mon, 26 Dec 2022 06:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:42:30.650450
- Title: Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal
- Title(参考訳): 一貫性制約とシグナー除去による連続手話認識の改善
- Authors: Ronglai Zuo and Brian Mak
- Abstract要約: CSLRバックボーンを強化するために,3つの補助タスクを提案する。
キーポイント誘導型空間アテンションモジュールが開発され、視覚モジュールが情報領域に集中するよう強制される。
両特徴の表現力を高めるために、視覚モジュールとシーケンシャルモジュールの間に文埋め込み一貫性制約が課される。
本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
- 参考スコア(独自算出の注目度): 19.361462310468752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep-learning-based continuous sign language recognition (CSLR) models
share a similar backbone consisting of a visual module, a sequential module,
and an alignment module. However, due to limited training samples, a
connectionist temporal classification loss may not train such CSLR backbones
sufficiently. In this work, we propose three auxiliary tasks to enhance the
CSLR backbones. The first task enhances the visual module, which is sensitive
to the insufficient training problem, from the perspective of consistency.
Specifically, since the information of sign languages is mainly included in
signers' facial expressions and hand movements, a keypoint-guided spatial
attention module is developed to enforce the visual module to focus on
informative regions, i.e., spatial attention consistency. Second, noticing that
both the output features of the visual and sequential modules represent the
same sentence, to better exploit the backbone's power, a sentence embedding
consistency constraint is imposed between the visual and sequential modules to
enhance the representation power of both features. We name the CSLR model
trained with the above auxiliary tasks as consistency-enhanced CSLR, which
performs well on signer-dependent datasets in which all signers appear during
both training and testing. To make it more robust for the signer-independent
setting, a signer removal module based on feature disentanglement is further
proposed to remove signer information from the backbone. Extensive ablation
studies are conducted to validate the effectiveness of these auxiliary tasks.
More remarkably, with a transformer-based backbone, our model achieves
state-of-the-art or competitive performance on five benchmarks, PHOENIX-2014,
PHOENIX-2014-T, PHOENIX-2014-SI, CSL, and CSL-Daily.
- Abstract(参考訳): ほとんどのディープラーニングベースの連続手話認識(CSLR)モデルは、視覚モジュール、シーケンシャルモジュール、アライメントモジュールからなる同様のバックボーンを共有している。
しかし、訓練サンプルが限られているため、コネクショニストの時間的分類損失はCSLRバックボーンを十分に訓練することができない。
本研究では,CSLRバックボーンを強化するための3つの補助タスクを提案する。
最初のタスクは、一貫性の観点から、不十分なトレーニング問題に敏感な視覚モジュールを強化する。
具体的には、手話の情報は主に署名者の表情や手の動きに含まれているため、視覚モジュールに情報領域、すなわち空間的注意一貫性を集中させるキーポイント誘導空間注意モジュールが開発されている。
第二に、視覚的およびシーケンシャルなモジュールの出力特徴が同じ文を表すことに気付き、バックボーンのパワーをよりよく活用するために、視覚的およびシーケンシャルなモジュール間の文埋め込み一貫性制約を課し、両方の特徴の表現力を高める。
我々は、上記の補助タスクで訓練されたCSLRモデルを、整合性強化CSLRと呼び、すべてのシグナがトレーニングとテストの両方の間に現れるシグナ依存データセットでうまく機能する。
さらに、シグナー非依存設定をより堅牢にするため、特徴異方性に基づくシグナー除去モジュールを提案し、シグナー情報をバックボーンから削除する。
これらの補助作業の有効性を検証するために広範なアブレーション研究が行われている。
さらに、トランスフォーマーベースのバックボーンにより、PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL、CSL-Dailyの5つのベンチマークで、最先端または競合的なパフォーマンスを達成する。
関連論文リスト
- FLIP: Towards Fine-grained Alignment between ID-based Models and
Pretrained Language Models for CTR Prediction [51.64257638308695]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Mutual Balancing in State-Object Components for Compositional Zero-Shot
Learning [0.0]
合成ゼロショット学習(CZSL)は、目に見えない状態や物体から未知の合成を認識することを目的としている。
そこで本研究では,CZSLのSTate-Object Components (MUST) におけるMUtual Balanceと呼ばれる新しい手法を提案する。
我々のアプローチは、MIT-States、UT-Zappos、C-GQAといった基本的なCZSLフレームワークと組み合わせることで、最先端のCZSLよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-19T10:21:22Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。