Fugu-MT 論文翻訳(概要): ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic Sign Language Recognition

論文の概要: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic Sign Language Recognition

arxiv url: http://arxiv.org/abs/2210.03951v1
Date: Sat, 8 Oct 2022 07:36:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 17:21:49.688277
Title: ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic Sign Language Recognition
Title（参考訳）: arabsign: アラビア語連続手話認識のためのマルチモダリティデータセットとベンチマーク
Authors: Hamzah Luqman
Abstract要約: ArabSignデータセットは、6人の署名者が実行した9,335のサンプルで構成されている。記録された文の総時間はおよそ10時間であり、平均的な文の長さは3.1の記号である。連続型ArSL認識のためのエンコーダデコーダモデルを提案する。
参考スコア（独自算出の注目度）: 1.2691047660244335
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Sign language recognition has attracted the interest of researchers in recent years. While numerous approaches have been proposed for European and Asian sign languages recognition, very limited attempts have been made to develop similar systems for the Arabic sign language (ArSL). This can be attributed partly to the lack of a dataset at the sentence level. In this paper, we aim to make a significant contribution by proposing ArabSign, a continuous ArSL dataset. The proposed dataset consists of 9,335 samples performed by 6 signers. The total time of the recorded sentences is around 10 hours and the average sentence's length is 3.1 signs. ArabSign dataset was recorded using a Kinect V2 camera that provides three types of information (color, depth, and skeleton joint points) recorded simultaneously for each sentence. In addition, we provide the annotation of the dataset according to ArSL and Arabic language structures that can help in studying the linguistic characteristics of ArSL. To benchmark this dataset, we propose an encoder-decoder model for Continuous ArSL recognition. The model has been evaluated on the proposed dataset, and the obtained results show that the encoder-decoder model outperformed the attention mechanism with an average word error rate (WER) of 0.50 compared with 0.62 with the attention mechanism. The data and code are available at github.com/Hamzah-Luqman/ArabSign
Abstract（参考訳）: 近年,手話認識が研究者の関心を集めている。ヨーロッパやアジアの手話認識には様々なアプローチが提案されているが、アラビア語手話(arsl)に類似したシステムを開発する試みはごくわずかである。これは部分的には、文レベルでのデータセットの欠如によるものである。本稿では、連続的なArSLデータセットであるArabSignを提案することで、大きな貢献をすることを目指している。提案するデータセットは、6人の署名者が行った9,335のサンプルで構成されている。記録された文の総時間はおよそ10時間であり、平均文の長さは3.1符号である。 arabsignデータセットはkinect v2カメラを使用して記録され、各文に対して3種類の情報(色、深さ、骨格関節点)を同時に記録する。さらに、ArSLの言語的特徴を研究するのに役立つ、ArSLおよびアラビア語構造に基づくデータセットのアノテーションを提供する。このデータセットをベンチマークするために、連続ArSL認識のためのエンコーダデコーダモデルを提案する。提案したデータセットで評価した結果,エンコーダ・デコーダモデルでは平均単語誤り率(WER)が0.50であり,アテンション機構が0.62であるのに対し,アテンション機構が優れていた。データとコードはgithub.com/Hamzah-Luqman/ArabSignで入手できる

関連論文リスト

Developing Lightweight DNN Models With Limited Data For Real-Time Sign Language Recognition [0.0]
限られたデータに基づいて訓練された軽量DNNを用いて,リアルタイム手話認識のための新しいフレームワークを提案する。本システムは,データ不足,高い計算コスト,トレーニング環境と推論環境のフレームレートの相違など,手話認識における重要な課題に対処する。
論文参考訳（メタデータ） (2025-06-30T20:34:54Z)
Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
ISLR101: an Iranian Word-Level Sign Language Recognition Dataset [0.0]
ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
論文参考訳（メタデータ） (2025-03-16T10:57:01Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。 AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文参考訳（メタデータ） (2024-11-19T21:15:47Z)
Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。このデータセットは、2002年に20人(男性10人、女性10人)の聴覚障害者が記録した聴覚障害者コミュニティで日常的に使われる一般的な単語をカバーしている。人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
論文参考訳（メタデータ） (2024-07-19T11:48:36Z)
iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。 ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文参考訳（メタデータ） (2024-07-07T15:07:35Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文参考訳（メタデータ） (2023-05-23T21:00:42Z)
ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。受講生は45名、受講生は45名、受講生は45名であった。データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文参考訳（メタデータ） (2022-07-08T17:18:49Z)
BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。データセットのモチベーションと統計、利用可能なアノテーションについて説明する。我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文参考訳（メタデータ） (2021-11-05T17:35:58Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。 80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。 3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文参考訳（メタデータ） (2020-08-18T20:22:16Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。