論文の概要: Word separation in continuous sign language using isolated signs and
post-processing
- arxiv url: http://arxiv.org/abs/2204.00923v1
- Date: Sat, 2 Apr 2022 18:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:41:22.091486
- Title: Word separation in continuous sign language using isolated signs and
post-processing
- Title(参考訳): 孤立符号と後処理を用いた連続手話における単語分離
- Authors: Razieh Rastgoo, Kourosh Kiani, Sergio Escalera
- Abstract要約: 連続手話認識はコンピュータビジョンの課題である。
分離符号境界検出のための2段階モデルを提案する。
連続サインビデオの結果から,提案モデルの有効性が確認された。
- 参考スコア(独自算出の注目度): 47.436298331905775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continuous Sign Language Recognition (CSLR) is a long challenging task in
Computer Vision due to the difficulties in detecting the explicit boundaries
between the words in a sign sentence. To deal with this challenge, we propose a
two-stage model. In the first stage, the predictor model, which includes a
combination of CNN, SVD, and LSTM, is trained with the isolated signs. In the
second stage, we apply a post-processing algorithm to the Softmax outputs
obtained from the first part of the model in order to separate the isolated
signs in the continuous signs. Due to the lack of a large dataset, including
both the sign sequences and the corresponding isolated signs, two public
datasets in Isolated Sign Language Recognition (ISLR), RKS-PERSIANSIGN and
ASLVID, are used for evaluation. Results of the continuous sign videos confirm
the efficiency of the proposed model to deal with isolated sign boundaries
detection.
- Abstract(参考訳): 連続手話認識(cslr)は、手話中の単語間の明示的な境界を検出するのが困難であるため、コンピュータビジョンにおいて長い課題である。
この課題に対処するため,我々は2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では,モデルの第一部分から得られたソフトマックス出力に後処理アルゴリズムを適用し,連続符号の孤立した符号を分離する。
符号列とそれに対応する孤立符号の両方を含む大きなデータセットがないため、独立手話認識(ISLR)、RKS-PERSIANSIGN、ASLVIDの2つの公開データセットが評価に使用される。
連続手話ビデオの結果は、孤立手話境界検出に対処するために提案したモデルの効率性を確認する。
関連論文リスト
- MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。
サインを効果的に縫合するための7段階のアプローチを提案する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文 参考訳(メタデータ) (2024-05-13T11:44:57Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。