論文の概要: Self-Emphasizing Network for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2211.17081v1
- Date: Wed, 30 Nov 2022 15:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:26:10.721174
- Title: Self-Emphasizing Network for Continuous Sign Language Recognition
- Title(参考訳): 連続手話認識のための自己実現ネットワーク
- Authors: Lianyu Hu, Liqing Gao, Zekang liu, Wei Feng
- Abstract要約: 自己強調型ネットワーク(SEN)は、情報空間領域を自己動機的に強調する。
本稿では,これらの差別的フレームを適応的に強調し,冗長なフレームを抑えるための時間的自己強調モジュールを提案する。
SENは4つの大規模データセットで新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 6.428695655854854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand and face play an important role in expressing sign language. Their
features are usually especially leveraged to improve system performance.
However, to effectively extract visual representations and capture trajectories
for hands and face, previous methods always come at high computations with
increased training complexity. They usually employ extra heavy pose-estimation
networks to locate human body keypoints or rely on additional pre-extracted
heatmaps for supervision. To relieve this problem, we propose a
self-emphasizing network (SEN) to emphasize informative spatial regions in a
self-motivated way, with few extra computations and without additional
expensive supervision. Specifically, SEN first employs a lightweight subnetwork
to incorporate local spatial-temporal features to identify informative regions,
and then dynamically augment original features via attention maps. It's also
observed that not all frames contribute equally to recognition. We present a
temporal self-emphasizing module to adaptively emphasize those discriminative
frames and suppress redundant ones. A comprehensive comparison with previous
methods equipped with hand and face features demonstrates the superiority of
our method, even though they always require huge computations and rely on
expensive extra supervision. Remarkably, with few extra computations, SEN
achieves new state-of-the-art accuracy on four large-scale datasets, PHOENIX14,
PHOENIX14-T, CSL-Daily, and CSL. Visualizations verify the effects of SEN on
emphasizing informative spatial and temporal features. Code is available at
https://github.com/hulianyuyy/SEN_CSLR
- Abstract(参考訳): 手と顔は手話を表現する上で重要な役割を果たす。
彼らの機能は通常、システムパフォーマンスを改善するために特に活用される。
しかし、視覚的表現を効果的に抽出し、手と顔の軌跡を捕捉するために、従来の手法は常に訓練の複雑さを増して高い計算を行う。
彼らは通常、人間の身体のキーポイントを見つけるために追加の重いポーズ推定ネットワークを使用するか、監視のために追加の抽出されたヒートマップに依存する。
この問題を解消するため、我々は、余分な計算をほとんど必要とせず、さらに高価な監視を行うことなく、情報空間領域を自己動機的に強調する自己強調ネットワーク(SEN)を提案する。
具体的には、SENはまず、局所的な時空間特徴を組み込んだ軽量サブネットワークを使用して情報領域を特定し、アテンションマップを介して元の特徴を動的に拡張する。
また、すべてのフレームが認識に等しく寄与するわけではない。
本稿では,これらの識別フレームを適応的に強調し,冗長なフレームを抑制するための時間的自己強調モジュールを提案する。
手と顔の特徴を備えた従来の方法との包括的比較は、常に巨大な計算が必要であり、高価な余分な監督に依存するにもかかわらず、この手法の優越性を示している。
注目すべきなのは、余分な計算がほとんどないSENは、4つの大規模データセット(PHOENIX14、PHOENIX14-T、CSL-Daily、CSL)で新しい最先端の精度を実現することだ。
可視化は、情報的空間的特徴と時間的特徴を強調するSENの効果を検証する。
コードはhttps://github.com/hulianyuyy/SEN_CSLRで入手できる。
関連論文リスト
- Causality-inspired Discriminative Feature Learning in Triple Domains for Gait Recognition [36.55724380184354]
CLTDは、三重ドメイン、すなわち空間、時間、スペクトルにおける共同創設者の影響を排除するために設計された識別的特徴学習モジュールである。
具体的には、Cross Pixel-wise Attention Generator (CPAG)を用いて、空間的および時間的領域における実物的特徴と反物的特徴の注意分布を生成する。
次に、FPH(Fourier Projection Head)を導入し、空間的特徴をスペクトル空間に投影し、計算コストを低減しつつ重要な情報を保存する。
論文 参考訳(メタデータ) (2024-07-17T12:16:44Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - A Point in the Right Direction: Vector Prediction for Spatially-aware
Self-supervised Volumetric Representation Learning [12.369884719068228]
VectorPOSEは、ベクトル予測(Vector Prediction)と境界焦点再構成(Bundary-Focused Restructation)という2つの新しいプリテキストタスクによって、より優れた空間的理解を促進する。
本研究では,3次元医用画像分割作業におけるVectorPOSEの評価を行った。
論文 参考訳(メタデータ) (2022-11-15T22:10:50Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Hybrid-Attention Guided Network with Multiple Resolution Features for
Person Re-Identification [30.285126447140254]
本稿では,ハイレベルな特徴を学習する際の情報損失を低減するために,ハイレベルな埋め込みと低レベルな埋め込みを融合した新しい人物再IDモデルを提案する。
また,対象物に関するより識別的な特徴を抽出することを目的とした,空間的およびチャネル的注意機構をモデルに導入する。
論文 参考訳(メタデータ) (2020-09-16T08:12:42Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。