論文の概要: Continuous Sign Language Recognition Based on Motor attention mechanism
and frame-level Self-distillation
- arxiv url: http://arxiv.org/abs/2402.19118v1
- Date: Thu, 29 Feb 2024 12:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:56:01.118779
- Title: Continuous Sign Language Recognition Based on Motor attention mechanism
and frame-level Self-distillation
- Title(参考訳): 運動注意機構とフレームレベルの自己蒸留に基づく連続手話認識
- Authors: Qidan Zhu, Jing Li, Fei Yuan, Quan Gan
- Abstract要約: 本稿では,手話表現中の局所的な運動領域の変化を捉えるための新しい運動注意機構を提案する。
連続手話におけるフレームレベルの特徴抽出に,初めて自己蒸留法を適用した。
- 参考スコア(独自算出の注目度): 17.518587972114567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Changes in facial expression, head movement, body movement and gesture
movement are remarkable cues in sign language recognition, and most of the
current continuous sign language recognition(CSLR) research methods mainly
focus on static images in video sequences at the frame-level feature extraction
stage, while ignoring the dynamic changes in the images. In this paper, we
propose a novel motor attention mechanism to capture the distorted changes in
local motion regions during sign language expression, and obtain a dynamic
representation of image changes. And for the first time, we apply the
self-distillation method to frame-level feature extraction for continuous sign
language, which improves the feature expression without increasing the
computational resources by self-distilling the features of adjacent stages and
using the higher-order features as teachers to guide the lower-order features.
The combination of the two constitutes our proposed holistic model of CSLR
Based on motor attention mechanism and frame-level Self-Distillation (MAM-FSD),
which improves the inference ability and robustness of the model. We conduct
experiments on three publicly available datasets, and the experimental results
show that our proposed method can effectively extract the sign language motion
information in videos, improve the accuracy of CSLR and reach the
state-of-the-art level.
- Abstract(参考訳): 表情, 頭の動き, 体の動き, ジェスチャーの動きの変化は手話認識において顕著な手がかりであり, 現在の連続手話認識(cslr)研究手法のほとんどは, 動画像の動的変化を無視しつつ, フレームレベルの特徴抽出段階における映像列の静的画像に焦点を当てている。
本論文では,手話表現時の局所運動領域のゆがんだ変化を捉え,画像変化の動的表現を得るための新しい運動注意機構を提案する。
また, 連続手話のフレームレベル特徴抽出に初めて自己蒸留法を適用し, 隣接する段階の特徴を自己蒸留し, 教師として高次特徴を用いて低次特徴を導出することにより, 計算資源を増大させることなく特徴表現を改善する。
この2つの組み合わせは, 運動注意機構とフレームレベル自己蒸留(mam-fsd)に基づくcslrの総合モデルであり, モデルの推論能力とロバスト性を向上させる。
本研究では,3つの公開データセットに対して実験を行い,提案手法により映像中の手話動作情報を効果的に抽出し,CSLRの精度を向上し,最先端レベルまで到達できることを示す。
関連論文リスト
- Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Implicit and Explicit Attention for Zero-Shot Learning [11.66422653137002]
ゼロショット学習(ZSL)モデルにおけるバイアス問題に対処するための暗黙的かつ明示的な注意機構を提案する。
我々は、AWA2、CUB、SUNの3つの人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2021-10-02T18:06:21Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - Temporal Accumulative Features for Sign Language Recognition [2.3204178451683264]
我々は,孤立した手話のジェスチャーを認識するための,効率的かつ高速なSLR手法を考案した。
また,手形情報や小規模な逐次ニューラルネットワークを用いて,言語サブユニットの累積特徴のモデリングがベースライン分類結果に基づいて改善されることを実証した。
論文 参考訳(メタデータ) (2020-04-02T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。