Fugu-MT 論文翻訳(概要): Slovo: Russian Sign Language Dataset

論文の概要: Slovo: Russian Sign Language Dataset

arxiv url: http://arxiv.org/abs/2305.14527v1
Date: Tue, 23 May 2023 21:00:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 23:26:42.733906
Title: Slovo: Russian Sign Language Dataset
Title（参考訳）: Slovo: ロシアの手話データセット
Authors: Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta Petrova
Abstract要約: 本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1000クラスのRSLジェスチャーに分割されている。
参考スコア（独自算出の注目度）: 117.53815148602277
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: One of the main challenges of the sign language recognition task is the difficulty of collecting a suitable dataset due to the gap between deaf and hearing society. In addition, the sign language in each country differs significantly, which obliges the creation of new data for each of them. This paper presents the Russian Sign Language (RSL) video dataset Slovo, produced using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings, divided into 1,000 classes of RSL gestures received by 194 signers. We also provide the entire dataset creation pipeline, from data collection to video annotation, with the following demo application. Several neural networks are trained and evaluated on the Slovo to demonstrate its teaching ability. Proposed data and pre-trained models are publicly available.
Abstract（参考訳）: 手話認識タスクの主な課題の1つは、聴覚と聴覚のギャップによる適切なデータセットの収集が困難であることである。さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1000クラスのRSLジェスチャーに分割されている。データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。提案されたデータと事前訓練されたモデルが公開されている。

関連論文リスト

Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
ISLR101: an Iranian Word-Level Sign Language Recognition Dataset [0.0]
ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
論文参考訳（メタデータ） (2025-03-16T10:57:01Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
AzSLD: Azerbaijani Sign Language Dataset for Fingerspelling, Word, and Sentence Translation with Baseline Software [0.0]
データセットは、ビジョンベースのAzSL翻訳プロジェクトのフレームワーク内で作成された。 AzSLDには30,000の動画が含まれており、それぞれに正確な記号ラベルと対応する言語翻訳が注記されている。
論文参考訳（メタデータ） (2024-11-19T21:15:47Z)
Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文参考訳（メタデータ） (2024-10-11T09:59:48Z)
ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文参考訳（メタデータ） (2023-04-12T15:52:53Z)
Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文参考訳（メタデータ） (2023-01-10T03:21:01Z)
LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文参考訳（メタデータ） (2022-11-14T14:46:44Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。 80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。 3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文参考訳（メタデータ） (2020-08-18T20:22:16Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。