論文の概要: Dual-view Spatio-Temporal Feature Fusion with CNN-Transformer Hybrid Network for Chinese Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2506.06966v1
- Date: Sun, 08 Jun 2025 02:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.589545
- Title: Dual-view Spatio-Temporal Feature Fusion with CNN-Transformer Hybrid Network for Chinese Isolated Sign Language Recognition
- Title(参考訳): 中国語単独手話認識のためのCNN変換器ハイブリッドネットワークによる2視点時空間特徴融合
- Authors: Siyuan Jing, Guangxue Wang, Haoyang Zhai, Qin Tao, Jun Yang, Bing Wang, Peng Jin,
- Abstract要約: 本稿では,NationalCSL-DPという手話認識のための2視点手話データセットを提案する。
データセットは、2つの垂直ビューに対して10人の署名者が記録した134140のサインビデオで構成されている。
また、CNNトランスフォーマーネットワークは強力なベースラインであり、予測のための極めて単純だが効果的な融合戦略として提案されている。
- 参考スコア(独自算出の注目度): 7.212104558068557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the emergence of many sign language datasets, isolated sign language recognition (ISLR) has made significant progress in recent years. In addition, the development of various advanced deep neural networks is another reason for this breakthrough. However, challenges remain in applying the technique in the real world. First, existing sign language datasets do not cover the whole sign vocabulary. Second, most of the sign language datasets provide only single view RGB videos, which makes it difficult to handle hand occlusions when performing ISLR. To fill this gap, this paper presents a dual-view sign language dataset for ISLR named NationalCSL-DP, which fully covers the Chinese national sign language vocabulary. The dataset consists of 134140 sign videos recorded by ten signers with respect to two vertical views, namely, the front side and the left side. Furthermore, a CNN transformer network is also proposed as a strong baseline and an extremely simple but effective fusion strategy for prediction. Extensive experiments were conducted to prove the effectiveness of the datasets as well as the baseline. The results show that the proposed fusion strategy can significantly increase the performance of the ISLR, but it is not easy for the sequence-to-sequence model, regardless of whether the early-fusion or late-fusion strategy is applied, to learn the complementary features from the sign videos of two vertical views.
- Abstract(参考訳): 多くの手話データセットの出現により、近年は孤立手話認識(ISLR)が著しく進歩している。
さらに、様々な高度なディープニューラルネットワークの開発も、このブレークスルーの理由のひとつだ。
しかし、この技法を現実世界に適用する上での課題は残されている。
まず、既存の手話データセットは手話の語彙全体をカバーしていない。
第二に、手話データセットのほとんどが単一のビューRGBビデオのみを提供しており、ISLRの実行時に手作業の閉塞を処理するのが困難である。
このギャップを埋めるために,中国における手話語彙を完全に網羅したISLR用2視点手話データセットであるNationalCSL-DPを提案する。
データセットは、10人の署名者が記録した134140のサインビデオで構成されている。
さらに、CNNトランスフォーマーネットワークは、強力なベースラインであり、予測のための非常に単純だが効果的な融合戦略として提案されている。
データセットとベースラインの有効性を証明するため,大規模な実験を行った。
提案した融合戦略はISLRの性能を大幅に向上させることができるが,早期融合戦略や後期融合戦略が適用されているかどうかに関わらず,シーケンス・ツー・シーケンス・モデルでは2つの垂直ビューのサインビデオから補完的な特徴を学習することは容易ではない。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。