論文の概要: Slovo: Russian Sign Language Dataset
- arxiv url: http://arxiv.org/abs/2305.14527v1
- Date: Tue, 23 May 2023 21:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 23:26:42.733906
- Title: Slovo: Russian Sign Language Dataset
- Title(参考訳): Slovo: ロシアの手話データセット
- Authors: Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta
Petrova
- Abstract要約: 本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1000クラスのRSLジェスチャーに分割されている。
- 参考スコア(独自算出の注目度): 117.53815148602277
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the main challenges of the sign language recognition task is the
difficulty of collecting a suitable dataset due to the gap between deaf and
hearing society. In addition, the sign language in each country differs
significantly, which obliges the creation of new data for each of them. This
paper presents the Russian Sign Language (RSL) video dataset Slovo, produced
using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings,
divided into 1,000 classes of RSL gestures received by 194 signers. We also
provide the entire dataset creation pipeline, from data collection to video
annotation, with the following demo application. Several neural networks are
trained and evaluated on the Slovo to demonstrate its teaching ability.
Proposed data and pre-trained models are publicly available.
- Abstract(参考訳): 手話認識タスクの主な課題の1つは、聴覚と聴覚のギャップによる適切なデータセットの収集が困難であることである。
さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1000クラスのRSLジェスチャーに分割されている。
データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。
いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。
提案されたデータと事前訓練されたモデルが公開されている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。
AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文 参考訳(メタデータ) (2024-11-19T21:15:47Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。