論文の概要: MHB: Multimodal Handshape-aware Boundary Detection for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2511.19907v1
- Date: Tue, 25 Nov 2025 04:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.268699
- Title: MHB: Multimodal Handshape-aware Boundary Detection for Continuous Sign Language Recognition
- Title(参考訳): MHB:連続手話認識のためのマルチモーダル手形認識境界検出
- Authors: Mingyu Zhao, Zhanfu Yang, Yang Zhou, Zhaoyang Xia, Can Jin, Xiaoxiao He, Carol Neidle, Dimitris N. Metaxas,
- Abstract要約: 我々は、ASL(American Sign Language)文のビデオの開始フレームと終了フレームを機械学習で検出する。
強靭性を向上するために,手話ビデオから抽出した3次元骨格特徴を用いて手話特性の収束を捉える。
次に、事前訓練された手形ビデオセグメンテーションフレームワークと手形分類モデルを統合するために、マルチモーダル融合モジュールを使用する。
- 参考スコア(独自算出の注目度): 29.45413576236808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a multimodal approach for continuous sign recognition that first uses machine learning to detect the start and end frames of signs in videos of American Sign Language (ASL) sentences, and then recognizes the segmented signs. For improved robustness, we use 3D skeletal features extracted from sign language videos to capture the convergence of sign properties and their dynamics, which tend to cluster at sign boundaries. Another focus of this work is the incorporation of information from 3D handshape for boundary detection. To detect handshapes normally expected at the beginning and end of signs, we pretrain a handshape classifier for 87 linguistically defined canonical handshape categories using a dataset that we created by integrating and normalizing several existing datasets. A multimodal fusion module is then used to unify the pretrained sign video segmentation framework and the handshape classification models. Finally, the estimated boundaries are used for sign recognition, where the recognition model is trained on a large database containing both citation-form isolated signs and signs pre-segmented (based on manual annotations) from continuous signing, as such signs often differ in certain respects. We evaluate our method on the ASLLRP corpus and demonstrate significant improvements over previous work.
- Abstract(参考訳): 本稿では、まず機械学習を用いて、ASL(American Sign Language)文のビデオの開始フレームと終了フレームを検出し、次に分割された符号を認識する、連続手話認識のためのマルチモーダルアプローチを提案する。
強靭性を向上するために,手話ビデオから抽出した3次元骨格特徴を用いて手話特性の収束と,手話境界に集束する傾向にある動作を捉える。
この研究のもう1つの焦点は、境界検出のための3次元ハンドシェイプからの情報の取り込みである。
サインの開始と終了で通常期待される触覚を検出するために,既存のデータセットの統合と正規化によって作成したデータセットを用いて,言語的に定義された87の標準手形カテゴリに対して,手形分類器を事前訓練した。
次に、事前訓練された手形ビデオセグメンテーションフレームワークと手形分類モデルを統合するために、マルチモーダル融合モジュールを使用する。
最後に、推定された境界は手話認識に使用され、認識モデルは引用形式の孤立した記号と(手話による注釈に基づいて)連続的な署名から事前に分離された符号の両方を含む大きなデータベース上で訓練される。
提案手法をASLLRPコーパス上で評価し,従来よりも大幅に改善したことを示す。
関連論文リスト
- Hands-On: Segmenting Individual Signs from Continuous Sequences [28.01996053847279]
本稿では,署名とフレームセグメンテーションの時間ダイナミクスをモデル化したトランスフォーマーアーキテクチャを提案する。
我々のモデルはDGS Corpusの最先端結果を達成する一方、我々の機能はBSLCorpusの以前のベンチマークを上回る。
論文 参考訳(メタデータ) (2025-04-11T14:52:59Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。