論文の概要: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2210.03951v1
- Date: Sat, 8 Oct 2022 07:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:21:49.688277
- Title: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition
- Title(参考訳): arabsign: アラビア語連続手話認識のためのマルチモダリティデータセットとベンチマーク
- Authors: Hamzah Luqman
- Abstract要約: ArabSignデータセットは、6人の署名者が実行した9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均的な文の長さは3.1の記号である。
連続型ArSL認識のためのエンコーダデコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language recognition has attracted the interest of researchers in recent
years. While numerous approaches have been proposed for European and Asian sign
languages recognition, very limited attempts have been made to develop similar
systems for the Arabic sign language (ArSL). This can be attributed partly to
the lack of a dataset at the sentence level. In this paper, we aim to make a
significant contribution by proposing ArabSign, a continuous ArSL dataset. The
proposed dataset consists of 9,335 samples performed by 6 signers. The total
time of the recorded sentences is around 10 hours and the average sentence's
length is 3.1 signs. ArabSign dataset was recorded using a Kinect V2 camera
that provides three types of information (color, depth, and skeleton joint
points) recorded simultaneously for each sentence. In addition, we provide the
annotation of the dataset according to ArSL and Arabic language structures that
can help in studying the linguistic characteristics of ArSL. To benchmark this
dataset, we propose an encoder-decoder model for Continuous ArSL recognition.
The model has been evaluated on the proposed dataset, and the obtained results
show that the encoder-decoder model outperformed the attention mechanism with
an average word error rate (WER) of 0.50 compared with 0.62 with the attention
mechanism. The data and code are available at github.com/Hamzah-Luqman/ArabSign
- Abstract(参考訳): 近年,手話認識が研究者の関心を集めている。
ヨーロッパやアジアの手話認識には様々なアプローチが提案されているが、アラビア語手話(arsl)に類似したシステムを開発する試みはごくわずかである。
これは部分的には、文レベルでのデータセットの欠如によるものである。
本稿では、連続的なArSLデータセットであるArabSignを提案することで、大きな貢献をすることを目指している。
提案するデータセットは、6人の署名者が行った9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均文の長さは3.1符号である。
arabsignデータセットはkinect v2カメラを使用して記録され、各文に対して3種類の情報(色、深さ、骨格関節点)を同時に記録する。
さらに、ArSLの言語的特徴を研究するのに役立つ、ArSLおよびアラビア語構造に基づくデータセットのアノテーションを提供する。
このデータセットをベンチマークするために、連続ArSL認識のためのエンコーダデコーダモデルを提案する。
提案したデータセットで評価した結果,エンコーダ・デコーダモデルでは平均単語誤り率(WER)が0.50であり,アテンション機構が0.62であるのに対し,アテンション機構が優れていた。
データとコードはgithub.com/Hamzah-Luqman/ArabSignで入手できる
関連論文リスト
- BdSLW60: A Word-Level Bangla Sign Language Dataset [3.8631510994883254]
我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2024-02-13T18:02:58Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ADDSL: Hand Gesture Detection and Sign Language Recognition on Annotated
Danish Sign Language [0.0]
本稿では,デンマーク手話用アノテーションデータセット(ADDSL)について紹介する。
このデータセットを用いて、1段オブジェクト検出モデル(YOLOv5)を訓練し、文字(A-Z)と数字(0-9)を認識する。
5つのモデルは350エポックで訓練され、平均推算時間は1枚あたり9.02ms、最高のアククラックは92%となった。
論文 参考訳(メタデータ) (2023-05-16T18:08:24Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。