論文の概要: Sentence-Level Sign Language Recognition Framework
- arxiv url: http://arxiv.org/abs/2211.14447v1
- Date: Sun, 13 Nov 2022 01:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:42:56.128525
- Title: Sentence-Level Sign Language Recognition Framework
- Title(参考訳): 文レベルの手話認識フレームワーク
- Authors: Atra Akandeh
- Abstract要約: 文レベルSLRは手話文の動画をグロスラベルのシーケンスにマッピングする必要があった。
CTCは、文を個々の単語にプリセグメンテーションするのを避けるために使用される。
我々は,RWTH-PHOENIX-Weather を用いた提案モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present two solutions to sentence-level SLR. Sentence-level SLR required
mapping videos of sign language sentences to sequences of gloss labels.
Connectionist Temporal Classification (CTC) has been used as the classifier
level of both models. CTC is used to avoid pre-segmenting the sentences into
individual words. The first model is an LRCN-based model, and the second model
is a Multi-Cue Network. LRCN is a model in which a CNN as a feature extractor
is applied to each frame before feeding them into an LSTM. In the first
approach, no prior knowledge has been leveraged. Raw frames are fed into an
18-layer LRCN with a CTC on top. In the second approach, three main
characteristics (hand shape, hand position, and hand movement information)
associated with each sign have been extracted using Mediapipe. 2D landmarks of
hand shape have been used to create the skeleton of the hands and then are fed
to a CONV-LSTM model. Hand locations and hand positions as relative distance to
head are fed to separate LSTMs. All three sources of information have been then
integrated into a Multi-Cue network with a CTC classification layer. We
evaluated the performance of proposed models on RWTH-PHOENIX-Weather. After
performing an excessive search on model hyper-parameters such as the number of
feature maps, input size, batch size, sequence length, LSTM memory cell,
regularization, and dropout, we were able to achieve 35 Word Error Rate (WER).
- Abstract(参考訳): 文レベルSLRに対する2つの解を提案する。
文レベルSLRは手話文の動画をグロスラベルのシーケンスにマッピングする必要がある。
Connectionist Temporal Classification (CTC) は、両方のモデルの分類レベルとして使用されている。
CTCは、文を個々の単語にプリセグメンテーションするのを避けるために使用される。
第1モデルはLRCNベースのモデルであり、第2モデルはMulti-Cue Networkである。
LRCNは、LSTMに入力する前に、各フレームに特徴抽出器としてのCNNを適用するモデルである。
最初のアプローチでは、事前の知識は活用されていない。
生フレームは、CTCを上にした18層LCCNに供給される。
第2のアプローチでは、各サインに関連する3つの主要な特徴(手形、手の位置、手の動き情報)をMediapipeを用いて抽出した。
手形の2Dランドマークは手の骨格を作るために使われ、その後CONV-LSTMモデルに供給される。
頭部との相対距離としての手の位置と手の位置は別個のLSTMに供給される。
3つの情報源はすべてctc分類層を持つマルチキューネットワークに統合されている。
我々は,RWTH-PHOENIX-Weatherを用いた提案モデルの性能評価を行った。
特徴マップ数,入力サイズ,バッチサイズ,シーケンス長,LSTMメモリセル,正規化,ドロップアウトなどのモデルハイパーパラメータを過剰に探索した後,35ワード誤り率(WER)を達成できた。
関連論文リスト
- FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes [0.0]
我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
論文 参考訳(メタデータ) (2021-10-12T11:40:05Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Bidirectional LSTM-CRF Attention-based Model for Chinese Word
Segmentation [2.3991565023534087]
中国語単語セグメンテーションのための双方向LSTM-CRFアテンションベースモデルを提案する。
我々のモデルは、他のニューラルネットワークによるベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-20T11:46:53Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。