論文の概要: ISLR101: an Iranian Word-Level Sign Language Recognition Dataset
- arxiv url: http://arxiv.org/abs/2503.12451v1
- Date: Sun, 16 Mar 2025 10:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:34.836435
- Title: ISLR101: an Iranian Word-Level Sign Language Recognition Dataset
- Title(参考訳): ISLR101: イラン語レベルの手話認識データセット
- Authors: Hossein Ranjbar, Alireza Taheri,
- Abstract要約: ISLR101は、孤立した手話認識のための最初のイラン手話データセットである。
このデータセットには、101の異なるサインをカバーする4,614の動画が含まれ、異なる背景に対して10の署名者が記録し、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sign language recognition involves modeling complex multichannel information, such as hand shapes and movements while relying on sufficient sign language-specific data. However, sign languages are often under-resourced, posing a significant challenge for research and development in this field. To address this gap, we introduce ISLR101, the first publicly available Iranian Sign Language dataset for isolated sign language recognition. This comprehensive dataset includes 4,614 videos covering 101 distinct signs, recorded by 10 different signers (3 deaf individuals, 2 sign language interpreters, and 5 L2 learners) against varied backgrounds, with a resolution of 800x600 pixels and a frame rate of 25 frames per second. It also includes skeleton pose information extracted using OpenPose. We establish both a visual appearance-based and a skeleton-based framework as baseline models, thoroughly training and evaluating them on ISLR101. These models achieve 97.01% and 94.02% accuracy on the test set, respectively. Additionally, we publish the train, validation, and test splits to facilitate fair comparisons.
- Abstract(参考訳): 手話認識は手形や動きなどの複雑なマルチチャネル情報をモデリングし、手話固有の十分なデータに依存する。
しかし、手話はしばしばリソース不足であり、この分野の研究と開発において重要な課題となっている。
このギャップに対処するため、ISLR101を導入し、イラン手話認識のためのイラン手話データセットを初めて公開する。
この包括的なデータセットは、101の異なるサインをカバーする4,614の動画を含み、異なる背景に対して10の異なるシグナー(3人の聴覚障害者、2人の手話インタプリタ、5人のL2学習者)によって記録され、解像度は800×600ピクセル、フレームレートは毎秒25フレームである。
OpenPoseを使って抽出したスケルトンポーズ情報も含まれている。
視覚的な外観ベースと骨格ベースのフレームワークをベースラインモデルとして確立し、ISLR101上で徹底的にトレーニングし評価する。
これらのモデルは、それぞれテストセット上で97.01%と94.02%の精度を達成する。
さらに、公正な比較を容易にするために、列車、検証、テストの分割を公開します。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。