Fugu-MT 論文翻訳(概要): Bukva: Russian Sign Language Alphabet

論文の概要: Bukva: Russian Sign Language Alphabet

arxiv url: http://arxiv.org/abs/2410.08675v1
Date: Fri, 11 Oct 2024 09:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 22:35:12.931086
Title: Bukva: Russian Sign Language Alphabet
Title（参考訳）: Bukva: ロシアの手話Alphabet
Authors: Karina Kvanchiani, Petr Surovtsev, Alexander Nagaev, Elizaveta Petrova, Alexander Kapitanov,
Abstract要約: 本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
参考スコア（独自算出の注目度）: 75.42794328290088
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper investigates the recognition of the Russian fingerspelling alphabet, also known as the Russian Sign Language (RSL) dactyl. Dactyl is a component of sign languages where distinct hand movements represent individual letters of a written language. This method is used to spell words without specific signs, such as proper nouns or technical terms. The alphabet learning simulator is an essential isolated dactyl recognition application. There is a notable issue of data shortage in isolated dactyl recognition: existing Russian dactyl datasets lack subject heterogeneity, contain insufficient samples, or cover only static signs. We provide Bukva, the first full-fledged open-source video dataset for RSL dactyl recognition. It contains 3,757 videos with more than 101 samples for each RSL alphabet sign, including dynamic ones. We utilized crowdsourcing platforms to increase the subject's heterogeneity, resulting in the participation of 155 deaf and hard-of-hearing experts in the dataset creation. We use a TSM (Temporal Shift Module) block to handle static and dynamic signs effectively, achieving 83.6% top-1 accuracy with a real-time inference with CPU only. The dataset, demo code, and pre-trained models are publicly available.
Abstract（参考訳）: 本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。この手法は、固有名詞や専門用語など、特定の記号を使わずに単語を綴る。アルファベット学習シミュレータは、必須に単離されたダクチル認識アプリケーションである。既存のロシアのダクチルデータセットには、対象の不均一性、サンプルの不足、静的な兆候のみをカバーしていない。当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。 RSLのアルファベット記号には3,757本のビデオと101本以上のサンプルがあり、ダイナミックなものも含まれている。クラウドソーシングプラットフォームを使用して、被験者の異質性を高め、結果として155人の聴覚障害者と難聴専門家がデータセット作成に参加しました。我々はTSM(Temporal Shift Module)ブロックを使って静的および動的サインを効果的に処理し、CPUのみのリアルタイム推論で83.6%のトップ-1の精度を達成する。データセット、デモコード、トレーニング済みモデルなどが公開されている。

関連論文リスト

ISLR101: an Iranian Word-Level Sign Language Recognition Dataset [0.0]
ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
論文参考訳（メタデータ） (2025-03-16T10:57:01Z)
Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies [6.403291706982091]
独立した手話認識は、スケーラブルな言語技術にとって不可欠である。言語をまたいで一般化し,語彙を進化させるワンショット学習手法を提案する。我々は、異なる言語から10,235のユニークな記号を含む大きな辞書上で50.8%のワンショットMRRを含む最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-27T15:07:51Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。 SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文参考訳（メタデータ） (2024-07-01T13:17:35Z)
Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文参考訳（メタデータ） (2023-05-23T21:00:42Z)
ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文参考訳（メタデータ） (2023-04-12T15:52:53Z)
Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文参考訳（メタデータ） (2023-01-10T03:21:01Z)
Weakly-supervised Fingerspelling Recognition in British Sign Language Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-11-16T15:02:36Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-08T03:05:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。