論文の概要: ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition
- arxiv url: http://arxiv.org/abs/2304.05934v1
- Date: Wed, 12 Apr 2023 15:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:23:48.971928
- Title: ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition
- Title(参考訳): ASL Citizen: 独立した手話認識を促進するコミュニティソースデータセット
- Authors: Aashaka Desai, Lauren Berger, Fyodor O. Minakov, Vanessa Milan,
Chinmay Singh, Kriston Pumphrey, Richard E. Ladner, Hal Daum\'e III, Alex X.
Lu, Naomi Caselli, Danielle Bragg
- Abstract要約: サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
ASL Citizenは、これまでで最大の独立した手話認識データセットで、同意を得て収集され、52人の署名者がさまざまな環境で撮影した2,731の異なるサインに対して83,912の動画を含む。
- 参考スコア(独自算出の注目度): 6.296362537531586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign languages are used as a primary language by approximately 70 million
D/deaf people world-wide. However, most communication technologies operate in
spoken and written languages, creating inequities in access. To help tackle
this problem, we release ASL Citizen, the largest Isolated Sign Language
Recognition (ISLR) dataset to date, collected with consent and containing
83,912 videos for 2,731 distinct signs filmed by 52 signers in a variety of
environments. We propose that this dataset be used for sign language dictionary
retrieval for American Sign Language (ASL), where a user demonstrates a sign to
their own webcam with the aim of retrieving matching signs from a dictionary.
We show that training supervised machine learning classifiers with our dataset
greatly advances the state-of-the-art on metrics relevant for dictionary
retrieval, achieving, for instance, 62% accuracy and a recall-at-10 of 90%,
evaluated entirely on videos of users who are not present in the training or
validation sets. An accessible PDF of this article is available at
https://aashakadesai.github.io/research/ASL_Dataset__arxiv_.pdf
- Abstract(参考訳): サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
しかし、ほとんどの通信技術は話し言葉や書き言葉で動作し、アクセスの不平等を生み出す。
この問題に対処するために、我々は、これまでで最大のISLRデータセットであるASL Citizenをリリースし、さまざまな環境で52人の署名者が撮影した83,912の動画と2,731の異なるサインを含む。
本稿では,このデータセットを手話辞書検索(asl)に利用し,利用者が辞書から一致する手話を取り出す目的で,自己のウェブカメラに手話を表示することを提案する。
データセットを用いた学習教師付き機械学習分類器は,辞書検索に関連する指標の最先端を大いに前進させ,例えば62%の精度と90%のリコールat-10を,トレーニングや検証セットに存在しないユーザのビデオで完全に評価した。
この記事のPDFはhttps://aashakadesai.github.io/research/ASL_Dataset__arxiv_.pdfで公開されている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - LSA64: An Argentinian Sign Language Dataset [42.27617228521691]
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提案する。
LSA64と呼ばれるこのデータセットには、10人の被験者が記録した64種類のLAA符号の3200の動画が含まれている。
また、前処理したデータセットも提示し、そこから信号の移動、位置、手形に関する統計を計算した。
論文 参考訳(メタデータ) (2023-10-26T14:37:01Z) - The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes [6.0179345110920455]
本稿では,ASL(American Sign Language)モデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。
Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の単独のサイン制作のビデオで構成されており、インフォームド・コンセントが与えられ、補償を受けた。
ASL-LEXにおける言語情報を活用する一連の実験を行い、Sem-Lex Benchmark(ISR)の実用性と公正性を評価した。
論文 参考訳(メタデータ) (2023-09-30T00:25:43Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - ASL Video Corpora & Sign Bank: Resources Available through the American
Sign Language Linguistic Research Project (ASLLRP) [0.0]
American Sign Language Linguistic Research Project (ASLLRP)は、高品質のASLビデオデータへのインターネットアクセスを提供する。
署名のマニュアルおよび非マニュアルコンポーネントはSignStream(R)を使用して言語的に注釈付けされている
論文 参考訳(メタデータ) (2022-01-19T22:48:36Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。