論文の概要: Hierarchical I3D for Sign Spotting
- arxiv url: http://arxiv.org/abs/2210.00951v1
- Date: Mon, 3 Oct 2022 14:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:02:52.624008
- Title: Hierarchical I3D for Sign Spotting
- Title(参考訳): 符号スポッティングのための階層型i3d
- Authors: Ryan Wong, Necati Cihan Camg\"oz, Richard Bowden
- Abstract要約: 我々は、孤立した手話認識ではなく、手話認識の課題に焦点を当てる。
粗い時間的符号特徴を学習する階層的な符号スポッティング手法を提案する。
我々は,ChaLearn 2022 Sign Spotting Challengeの優勝1位である最先端の0.607 F1スコアを達成した。
- 参考スコア(独自算出の注目度): 39.69485385546803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most of the vision-based sign language research to date has focused on
Isolated Sign Language Recognition (ISLR), where the objective is to predict a
single sign class given a short video clip. Although there has been significant
progress in ISLR, its real-life applications are limited. In this paper, we
focus on the challenging task of Sign Spotting instead, where the goal is to
simultaneously identify and localise signs in continuous co-articulated sign
videos. To address the limitations of current ISLR-based models, we propose a
hierarchical sign spotting approach which learns coarse-to-fine spatio-temporal
sign features to take advantage of representations at various temporal levels
and provide more precise sign localisation. Specifically, we develop
Hierarchical Sign I3D model (HS-I3D) which consists of a hierarchical network
head that is attached to the existing spatio-temporal I3D model to exploit
features at different layers of the network. We evaluate HS-I3D on the ChaLearn
2022 Sign Spotting Challenge - MSSL track and achieve a state-of-the-art 0.607
F1 score, which was the top-1 winning solution of the competition.
- Abstract(参考訳): これまでビジョンベースの手話研究のほとんどは、単一の手話クラスを短いビデオクリップで予測することを目的として、孤立手話認識(islr)に焦点を当ててきた。
ISLRには大きな進歩があったが、実際の応用は限られている。
本稿では,サインスポッティング(Sign Spotting)の課題に焦点をあてる。この課題は,連続的に協調したサインビデオ中のサインを同時に識別し,ローカライズすることである。
現状のISLRモデルにおける制約に対処するため,様々な時間レベルの表現を生かし,より正確な符号局所化を実現するために,粗大な時空間符号特徴を学習する階層的符号スポッティング手法を提案する。
具体的には,既存の時空間的i3dモデルにアタッチされた階層的ネットワークヘッドからなる階層的サインi3dモデル(hs-i3d)を開発し,ネットワークの異なるレイヤの特徴を活用した。
我々は,ChaLearn 2022 Sign Spotting Challenge - MSSLトラック上でHS-I3Dを評価し,最先端の0.607 F1スコアを達成した。
関連論文リスト
- MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Looking for the Signs: Identifying Isolated Sign Instances in Continuous
Video Footage [45.29710323525548]
ビデオクリップから時間的表現を抽出するために,SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。
本モデルでは,ベンチマークデータセットの精度を96%にまで向上させる。
論文 参考訳(メタデータ) (2021-07-21T12:49:44Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。