論文の概要: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2210.03951v1
- Date: Sat, 8 Oct 2022 07:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:21:49.688277
- Title: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition
- Title(参考訳): arabsign: アラビア語連続手話認識のためのマルチモダリティデータセットとベンチマーク
- Authors: Hamzah Luqman
- Abstract要約: ArabSignデータセットは、6人の署名者が実行した9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均的な文の長さは3.1の記号である。
連続型ArSL認識のためのエンコーダデコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language recognition has attracted the interest of researchers in recent
years. While numerous approaches have been proposed for European and Asian sign
languages recognition, very limited attempts have been made to develop similar
systems for the Arabic sign language (ArSL). This can be attributed partly to
the lack of a dataset at the sentence level. In this paper, we aim to make a
significant contribution by proposing ArabSign, a continuous ArSL dataset. The
proposed dataset consists of 9,335 samples performed by 6 signers. The total
time of the recorded sentences is around 10 hours and the average sentence's
length is 3.1 signs. ArabSign dataset was recorded using a Kinect V2 camera
that provides three types of information (color, depth, and skeleton joint
points) recorded simultaneously for each sentence. In addition, we provide the
annotation of the dataset according to ArSL and Arabic language structures that
can help in studying the linguistic characteristics of ArSL. To benchmark this
dataset, we propose an encoder-decoder model for Continuous ArSL recognition.
The model has been evaluated on the proposed dataset, and the obtained results
show that the encoder-decoder model outperformed the attention mechanism with
an average word error rate (WER) of 0.50 compared with 0.62 with the attention
mechanism. The data and code are available at github.com/Hamzah-Luqman/ArabSign
- Abstract(参考訳): 近年,手話認識が研究者の関心を集めている。
ヨーロッパやアジアの手話認識には様々なアプローチが提案されているが、アラビア語手話(arsl)に類似したシステムを開発する試みはごくわずかである。
これは部分的には、文レベルでのデータセットの欠如によるものである。
本稿では、連続的なArSLデータセットであるArabSignを提案することで、大きな貢献をすることを目指している。
提案するデータセットは、6人の署名者が行った9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均文の長さは3.1符号である。
arabsignデータセットはkinect v2カメラを使用して記録され、各文に対して3種類の情報(色、深さ、骨格関節点)を同時に記録する。
さらに、ArSLの言語的特徴を研究するのに役立つ、ArSLおよびアラビア語構造に基づくデータセットのアノテーションを提供する。
このデータセットをベンチマークするために、連続ArSL認識のためのエンコーダデコーダモデルを提案する。
提案したデータセットで評価した結果,エンコーダ・デコーダモデルでは平均単語誤り率(WER)が0.50であり,アテンション機構が0.62であるのに対し,アテンション機構が優れていた。
データとコードはgithub.com/Hamzah-Luqman/ArabSignで入手できる
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。
AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文 参考訳(メタデータ) (2024-11-19T21:15:47Z) - Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、2002年に20人(男性10人、女性10人)の聴覚障害者が記録した聴覚障害者コミュニティで日常的に使われる一般的な単語をカバーしている。
人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:48:36Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。