論文の概要: Bukva: Russian Sign Language Alphabet
- arxiv url: http://arxiv.org/abs/2410.08675v1
- Date: Fri, 11 Oct 2024 09:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:35:12.931086
- Title: Bukva: Russian Sign Language Alphabet
- Title(参考訳): Bukva: ロシアの手話Alphabet
- Authors: Karina Kvanchiani, Petr Surovtsev, Alexander Nagaev, Elizaveta Petrova, Alexander Kapitanov,
- Abstract要約: 本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
- 参考スコア(独自算出の注目度): 75.42794328290088
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper investigates the recognition of the Russian fingerspelling alphabet, also known as the Russian Sign Language (RSL) dactyl. Dactyl is a component of sign languages where distinct hand movements represent individual letters of a written language. This method is used to spell words without specific signs, such as proper nouns or technical terms. The alphabet learning simulator is an essential isolated dactyl recognition application. There is a notable issue of data shortage in isolated dactyl recognition: existing Russian dactyl datasets lack subject heterogeneity, contain insufficient samples, or cover only static signs. We provide Bukva, the first full-fledged open-source video dataset for RSL dactyl recognition. It contains 3,757 videos with more than 101 samples for each RSL alphabet sign, including dynamic ones. We utilized crowdsourcing platforms to increase the subject's heterogeneity, resulting in the participation of 155 deaf and hard-of-hearing experts in the dataset creation. We use a TSM (Temporal Shift Module) block to handle static and dynamic signs effectively, achieving 83.6% top-1 accuracy with a real-time inference with CPU only. The dataset, demo code, and pre-trained models are publicly available.
- Abstract(参考訳): 本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
この手法は、固有名詞や専門用語など、特定の記号を使わずに単語を綴る。
アルファベット学習シミュレータは、必須に単離されたダクチル認識アプリケーションである。
既存のロシアのダクチルデータセットには、対象の不均一性、サンプルの不足、静的な兆候のみをカバーしていない。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
RSLのアルファベット記号には3,757本のビデオと101本以上のサンプルがあり、ダイナミックなものも含まれている。
クラウドソーシングプラットフォームを使用して、被験者の異質性を高め、結果として155人の聴覚障害者と難聴専門家がデータセット作成に参加しました。
我々はTSM(Temporal Shift Module)ブロックを使って静的および動的サインを効果的に処理し、CPUのみのリアルタイム推論で83.6%のトップ-1の精度を達成する。
データセット、デモコード、トレーニング済みモデルなどが公開されている。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。