論文の概要: A Transformer Model for Boundary Detection in Continuous Sign Language
- arxiv url: http://arxiv.org/abs/2402.14720v1
- Date: Thu, 22 Feb 2024 17:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:27:10.833019
- Title: A Transformer Model for Boundary Detection in Continuous Sign Language
- Title(参考訳): 連続手話における境界検出のためのトランスモデル
- Authors: Razieh Rastgoo, Kourosh Kiani, Sergio Escalera
- Abstract要約: Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
- 参考スコア(独自算出の注目度): 55.05986614979846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign Language Recognition (SLR) has garnered significant attention from
researchers in recent years, particularly the intricate domain of Continuous
Sign Language Recognition (CSLR), which presents heightened complexity compared
to Isolated Sign Language Recognition (ISLR). One of the prominent challenges
in CSLR pertains to accurately detecting the boundaries of isolated signs
within a continuous video stream. Additionally, the reliance on handcrafted
features in existing models poses a challenge to achieving optimal accuracy. To
surmount these challenges, we propose a novel approach utilizing a
Transformer-based model. Unlike traditional models, our approach focuses on
enhancing accuracy while eliminating the need for handcrafted features. The
Transformer model is employed for both ISLR and CSLR. The training process
involves using isolated sign videos, where hand keypoint features extracted
from the input video are enriched using the Transformer model. Subsequently,
these enriched features are forwarded to the final classification layer. The
trained model, coupled with a post-processing method, is then applied to detect
isolated sign boundaries within continuous sign videos. The evaluation of our
model is conducted on two distinct datasets, including both continuous signs
and their corresponding isolated signs, demonstrates promising results.
- Abstract(参考訳): 近年,SLR (Sign Language Recognition) が研究者から注目されている。特にCSLR (Continuous Sign Language Recognition) の複雑な領域では,ISLR (Isolated Sign Language Recognition) と比較して複雑さが増している。
CSLRにおける顕著な課題の1つは、連続したビデオストリーム内の孤立した標識の境界を正確に検出することである。
さらに、既存のモデルにおける手作り機能への依存は、最適な精度を達成するための課題である。
これらの課題を克服するため,トランスフォーマーモデルを用いた新しいアプローチを提案する。
従来のモデルとは異なり、我々のアプローチは手作りの機能を必要としない精度の向上に焦点を当てている。
TransformerモデルはISLRとCSLRの両方に採用されている。
トレーニングプロセスでは,入力ビデオから抽出した手指キーポイント機能をトランスフォーマモデルを用いて強化した,孤立した手話ビデオを使用する。
その後、これらのリッチな特徴を最終分類層に転送する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
本モデルの評価は,連続符号とそれに対応する孤立符号の両方を含む2つの異なるデータセット上で行われ,有望な結果を示す。
関連論文リスト
- Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining [0.6144680854063939]
音声認識のための最先端コンフォーマーモデルを連続手話認識に適用する。
これは、視覚ベースのタスクにConformerを使用した最初の例である。
教師なし事前訓練は、キュレートされた手話データセット上で行われる。
論文 参考訳(メタデータ) (2024-05-20T13:40:52Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - A Transformer-Based Contrastive Learning Approach for Few-Shot Sign
Language Recognition [0.0]
本稿では,ボディキー点列からリッチな表現を学習するContrastive Transformerベースのモデルを提案する。
実験により、モデルは十分に一般化でき、トレーニングプロセスで見られない手話のクラスに対して、競争的な結果を得ることができた。
論文 参考訳(メタデータ) (2022-04-05T11:42:55Z) - Word separation in continuous sign language using isolated signs and
post-processing [47.436298331905775]
連続手話認識のための2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では、モデルの最初の部分から得られたソフトマックス出力に後処理アルゴリズムを適用する。
論文 参考訳(メタデータ) (2022-04-02T18:34:33Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。