論文の概要: Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language
- arxiv url: http://arxiv.org/abs/2310.17437v1
- Date: Thu, 26 Oct 2023 14:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:48:20.440577
- Title: Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language
- Title(参考訳): フレームシーケンス制約のない手話認識:アルゼンチン手話における概念実証
- Authors: Franco Ronchetti, Facundo Manuel Quiroga, C\'esar Estrebou, Laura
Lanzarini, Alejandro Rosete
- Abstract要約: 本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
- 参考スコア(独自算出の注目度): 42.27617228521691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic sign language recognition (SLR) is an important topic within the
areas of human-computer interaction and machine learning. On the one hand, it
poses a complex challenge that requires the intervention of various knowledge
areas, such as video processing, image processing, intelligent systems and
linguistics. On the other hand, robust recognition of sign language could
assist in the translation process and the integration of hearing-impaired
people, as well as the teaching of sign language for the hearing population.
SLR systems usually employ Hidden Markov Models, Dynamic Time Warping or
similar models to recognize signs. Such techniques exploit the sequential
ordering of frames to reduce the number of hypothesis. This paper presents a
general probabilistic model for sign classification that combines
sub-classifiers based on different types of features such as position, movement
and handshape. The model employs a bag-of-words approach in all classification
steps, to explore the hypothesis that ordering is not essential for
recognition. The proposed model achieved an accuracy rate of 97% on an
Argentinian Sign Language dataset containing 64 classes of signs and 3200
samples, providing some evidence that indeed recognition without ordering is
possible.
- Abstract(参考訳): 自動手話認識(SLR)は、人間とコンピュータのインタラクションと機械学習の分野において重要なトピックである。
一方で、ビデオ処理、画像処理、インテリジェントシステム、言語学といった様々な知識領域の介入を必要とする複雑な課題を提起する。
一方、手話の頑健な認識は、聴覚障害者の翻訳過程や統合、および聴力者のための手話教育を支援することができる。
SLRシステムは通常、標識を認識するために隠れマルコフモデル、ダイナミック・タイム・ウォーピングまたは類似のモデルを使用する。
このような手法は、仮説の数を減らすためにフレームの順序付けを利用する。
本稿では,位置,移動,手形など,様々な特徴に基づいてサブ分類器を結合した手形分類の一般化確率モデルを提案する。
このモデルは、全ての分類段階において、順序付けが認識に必須ではないという仮説を探求するために、単語の袋のアプローチを採用している。
提案モデルは,64種類の手話と3200のサンプルを含むアルゼンチンの手話データセットにおいて97%の精度を達成し,順序付けのない認識が可能であることを示す。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - LSA64: An Argentinian Sign Language Dataset [42.27617228521691]
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提案する。
LSA64と呼ばれるこのデータセットには、10人の被験者が記録した64種類のLAA符号の3200の動画が含まれている。
また、前処理したデータセットも提示し、そこから信号の移動、位置、手形に関する統計を計算した。
論文 参考訳(メタデータ) (2023-10-26T14:37:01Z) - Handshape recognition for Argentinian Sign Language using ProbSom [0.3124884279860061]
本稿では、まず、アルゼンチン手話(LSA)のための手話データベースの作成について述べる。
第2に,ProbSomと呼ばれる自己組織化マップの教師付き適応を用いた画像処理,記述子抽出,その後の手形分類手法を提案する。
構築されたデータベースには、800枚の画像と16個のLAAハンドパップが含まれており、アルゼンチンのサインの包括的なデータベースを構築するための第一歩である。
論文 参考訳(メタデータ) (2023-10-26T14:32:44Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Improving Sign Recognition with Phonology [8.27285154257448]
我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。
我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
論文 参考訳(メタデータ) (2023-02-11T18:51:23Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。