論文の概要: Continuous Sign Language Recognition Based on Motor attention mechanism
and frame-level Self-distillation
- arxiv url: http://arxiv.org/abs/2402.19118v1
- Date: Thu, 29 Feb 2024 12:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:56:01.118779
- Title: Continuous Sign Language Recognition Based on Motor attention mechanism
and frame-level Self-distillation
- Title(参考訳): 運動注意機構とフレームレベルの自己蒸留に基づく連続手話認識
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では,手話表現中の局所的な運動領域の変化を捉えるための新しい運動注意機構を提案する。
連続手話におけるフレームレベルの特徴抽出に,初めて自己蒸留法を適用した。
- 参考スコア(独自算出の注目度): 17.518587972114567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Changes in facial expression, head movement, body movement and gesture
movement are remarkable cues in sign language recognition, and most of the
current continuous sign language recognition(CSLR) research methods mainly
focus on static images in video sequences at the frame-level feature extraction
stage, while ignoring the dynamic changes in the images. In this paper, we
propose a novel motor attention mechanism to capture the distorted changes in
local motion regions during sign language expression, and obtain a dynamic
representation of image changes. And for the first time, we apply the
self-distillation method to frame-level feature extraction for continuous sign
language, which improves the feature expression without increasing the
computational resources by self-distilling the features of adjacent stages and
using the higher-order features as teachers to guide the lower-order features.
The combination of the two constitutes our proposed holistic model of CSLR
Based on motor attention mechanism and frame-level Self-Distillation (MAM-FSD),
which improves the inference ability and robustness of the model. We conduct
experiments on three publicly available datasets, and the experimental results
show that our proposed method can effectively extract the sign language motion
information in videos, improve the accuracy of CSLR and reach the
state-of-the-art level.
- Abstract(参考訳): 表情, 頭の動き, 体の動き, ジェスチャーの動きの変化は手話認識において顕著な手がかりであり, 現在の連続手話認識(cslr)研究手法のほとんどは, 動画像の動的変化を無視しつつ, フレームレベルの特徴抽出段階における映像列の静的画像に焦点を当てている。
本論文では,手話表現時の局所運動領域のゆがんだ変化を捉え,画像変化の動的表現を得るための新しい運動注意機構を提案する。
また, 連続手話のフレームレベル特徴抽出に初めて自己蒸留法を適用し, 隣接する段階の特徴を自己蒸留し, 教師として高次特徴を用いて低次特徴を導出することにより, 計算資源を増大させることなく特徴表現を改善する。
この2つの組み合わせは, 運動注意機構とフレームレベル自己蒸留(mam-fsd)に基づくcslrの総合モデルであり, モデルの推論能力とロバスト性を向上させる。
本研究では,3つの公開データセットに対して実験を行い,提案手法により映像中の手話動作情報を効果的に抽出し,CSLRの精度を向上し,最先端レベルまで到達できることを示す。
関連論文リスト
- Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation [8.84657964527764]
協調音声におけるジェスチャーの表現について,自己教師付き表現と画素レベルの動き偏差に着目して検討する。
提案手法は,手ジェスチャー生成を容易にするために,遅延表現における自己教師付き偏差を利用する。
最初の実験の結果,本手法が生成ビデオの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-09-26T09:33:20Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。