論文の概要: Video-based Sign Language Recognition without Temporal Segmentation
- arxiv url: http://arxiv.org/abs/1801.10111v2
- Date: Sun, 14 Sep 2025 04:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 16:12:03.206788
- Title: Video-based Sign Language Recognition without Temporal Segmentation
- Title(参考訳): テンポラルセグメンテーションを伴わないビデオベース手話認識
- Authors: Jie Huang, Wengang Zhou, Qilin Zhang, Houqiang Li, Weiping Li,
- Abstract要約: 本稿では,時間分割の事前処理を不要とする新しい連続符号認識フレームワークを提案する。
提案するLS-HANは,映像特徴表現生成のための2ストリーム畳み込みニューラルネットワーク(CNN),意味ギャップブリッジのための潜時空間,潜在空間に基づく認識のための階層的注意ネットワーク(HAN)の3つのコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 88.03159640595187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Millions of hearing impaired people around the world routinely use some variants of sign languages to communicate, thus the automatic translation of a sign language is meaningful and important. Currently, there are two sub-problems in Sign Language Recognition (SLR), i.e., isolated SLR that recognizes word by word and continuous SLR that translates entire sentences. Existing continuous SLR methods typically utilize isolated SLRs as building blocks, with an extra layer of preprocessing (temporal segmentation) and another layer of post-processing (sentence synthesis). Unfortunately, temporal segmentation itself is non-trivial and inevitably propagates errors into subsequent steps. Worse still, isolated SLR methods typically require strenuous labeling of each word separately in a sentence, severely limiting the amount of attainable training data. To address these challenges, we propose a novel continuous sign recognition framework, the Hierarchical Attention Network with Latent Space (LS-HAN), which eliminates the preprocessing of temporal segmentation. The proposed LS-HAN consists of three components: a two-stream Convolutional Neural Network (CNN) for video feature representation generation, a Latent Space (LS) for semantic gap bridging, and a Hierarchical Attention Network (HAN) for latent space based recognition. Experiments are carried out on two large scale datasets. Experimental results demonstrate the effectiveness of the proposed framework.
- Abstract(参考訳): 世界中の何百万人もの聴覚障害者が、日常的に手話の変種を使ってコミュニケーションしているため、手話の自動翻訳は意味があり重要である。
現在、手話認識(SLR)には2つのサブプロブレムがある。
既存の連続SLR法は、通常、孤立SLRをビルディングブロックとして利用し、前処理(時間分割)の余分な層と後処理(文合成)の別の層を持つ。
残念なことに、時間分割そのものは非自明であり、必然的にエラーをその後のステップに伝播させる。
さらに悪いことに、孤立したSLR法は、典型的には文中の各単語の厳密なラベル付けを必要とし、到達可能なトレーニングデータの量を大幅に制限する。
これらの課題に対処するため、我々は、時間分割の前処理を不要にする新しい連続手話認識フレームワーク、LS-HAN(Hierarchical Attention Network with Latent Space)を提案する。
提案するLS-HANは,ビデオ特徴表現生成のための2ストリーム畳み込みニューラルネットワーク(CNN),セマンティックギャップブリッジのためのラテント空間(LS),潜在空間に基づく認識のための階層型アテンションネットワーク(HAN)の3つのコンポーネントから構成される。
2つの大規模なデータセットで実験を行う。
実験により,提案手法の有効性が示された。
関連論文リスト
- Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - Word separation in continuous sign language using isolated signs and
post-processing [47.436298331905775]
連続手話認識のための2段階モデルを提案する。
第1段階では、CNN、SVD、LSTMの組み合わせを含む予測モデルが、孤立した標識で訓練される。
第2段階では、モデルの最初の部分から得られたソフトマックス出力に後処理アルゴリズムを適用する。
論文 参考訳(メタデータ) (2022-04-02T18:34:33Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。