論文の概要: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones
- arxiv url: http://arxiv.org/abs/2407.15806v1
- Date: Mon, 22 Jul 2024 17:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:51:10.743378
- Title: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones
- Title(参考訳): FSboard:スマートフォンで収集された300万文字以上のASLフィンガースペル
- Authors: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner,
- Abstract要約: 本稿では,モバイルテキスト入力のユースケースにおいて,米国手話指スペルデータセットであるFSboardについて述べる。
FSboardは長さ300万文字、持続時間250時間で、これまでで最大10倍の速度で指で文字を認識できるデータセットである。
ByT5-Smallに30HzのMediaPipeのホロスティックなランドマークを刻み込み、ユニークなフレーズとシグナを持つテストセットで11.1%の文字誤り率(CER)を達成する。
- 参考スコア(独自算出の注目度): 4.742368732517763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.
- Abstract(参考訳): 手話の機械理解の進歩は、限られたデータによって遅く、妨げられている。
本稿では,携帯電話のテキスト入力ユースケースに存在する米手話指スペルデータセットであるFSboardについて,Pixel 4Aの自撮りカメラを用いて147件の支払いとDeafシグナーの同意を得た。
フィンガースペル認識は手話翻訳のごく一部に過ぎない不完全解であるが、より広範な技術開発が進むにつれて、Deaf/Hard of Hearingシグナーにすぐに利益をもたらす可能性がある。
FSboardは長さ300万文字、持続時間250時間で、これまでで最大10倍の速度で指で文字を認識できるデータセットである。
単純なベースラインとして、30HzのMediaPipeのホロスティックなランドマークをByT5-Smallに微調整し、ユニークなフレーズとシグナを持つテストセットで11.1%の文字誤り率(CER)を達成する。
この品質は、フレームレートを減らし、顔やボディのランドマークを除いたときに優雅に低下します。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - 3D-LEX v1.0: 3D Lexicons for American Sign Language and Sign Language of the Netherlands [1.8641315013048299]
本稿では,手話を3Dでキャプチャするための効率的な手法を提案し,その3D-LEXデータセットを導入し,音韻特性の半自動アノテーション法について詳述する。
提案手法は,高解像度3次元ポーズ,3次元ハンドパップ,深度認識顔貌を含む3つのモーションキャプチャー技術を統合した。
3D-LEXデータセットには、American Sign Languageから1000のサインと、オランダのSign Languageから1000のサインが含まれている。
論文 参考訳(メタデータ) (2024-09-03T13:44:56Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Toward American Sign Language Processing in the Real World: Data, Tasks,
and Methods [15.77894358993113]
インターネットから収集した署名ビデオを用いて,手話の自動処理について検討した。
ChicagoFSWild、ChicagoFSWild+、OpenASLの3つの大規模ASLデータセットを紹介します。
そこで本研究では,指スペル検出と検索という,実世界の指スペルベースアプリケーションを構築するための2つのタスクを提案する。
論文 参考訳(メタデータ) (2023-08-23T20:38:19Z) - A two-way translation system of Chinese sign language based on computer
vision [0.0]
TSMモジュールは、中国の大規模な連続手話データセットのための軽量ニューラルネットワークモデルに追加される。
また,Bert-Base- Chineseモデルの改良により,中国語の文を単語に分割し,自然語順を規則手話順にマッピングする。
最後に,対応する単語ビデオを用いて文ビデオを生成し,テキスト-署名言語翻訳の機能を実現する。
論文 参考訳(メタデータ) (2023-06-03T16:00:57Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。