論文の概要: Slovo: Russian Sign Language Dataset
- arxiv url: http://arxiv.org/abs/2305.14527v3
- Date: Tue, 12 Mar 2024 14:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:15:12.311232
- Title: Slovo: Russian Sign Language Dataset
- Title(参考訳): Slovo: ロシアの手話データセット
- Authors: Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta
Petrova
- Abstract要約: 本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
- 参考スコア(独自算出の注目度): 83.93252084624997
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the main challenges of the sign language recognition task is the
difficulty of collecting a suitable dataset due to the gap between
hard-of-hearing and hearing societies. In addition, the sign language in each
country differs significantly, which obliges the creation of new data for each
of them. This paper presents the Russian Sign Language (RSL) video dataset
Slovo, produced using crowdsourcing platforms. The dataset contains 20,000
FullHD recordings, divided into 1,000 classes of isolated RSL gestures received
by 194 signers. We also provide the entire dataset creation pipeline, from data
collection to video annotation, with the following demo application. Several
neural networks are trained and evaluated on the Slovo to demonstrate its
teaching ability. Proposed data and pre-trained models are publicly available.
- Abstract(参考訳): 手話認識タスクの主な課題の1つは、難聴社会と聴覚社会のギャップにより、適切なデータセットを集めることの難しさである。
さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。
いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。
提案されたデータと事前訓練されたモデルが公開されている。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、2002年に20人(男性10人、女性10人)の聴覚障害者が記録した聴覚障害者コミュニティで日常的に使われる一般的な単語をカバーしている。
人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:48:36Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。