論文の概要: Isharah: A Large-Scale Multi-Scene Dataset for Continuous Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2506.03615v1
- Date: Wed, 04 Jun 2025 06:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.187153
- Title: Isharah: A Large-Scale Multi-Scene Dataset for Continuous Sign Language Recognition
- Title(参考訳): Isharah: 連続手話認識のための大規模マルチシーンデータセット
- Authors: Sarah Alyami, Hamzah Luqman, Sadam Al-Azani, Maad Alowaifeer, Yazeed Alharbi, Yaser Alonaizan,
- Abstract要約: 本稿では,連続SLRのための大規模マルチシーンデータセットであるIsharahを紹介する。
データセットは18人の聴覚障害者とプロのシグナーによる3万本のビデオクリップで構成されている。
また,複数の手話理解ベンチマークを導入し,手話に依存しないCSLRについて述べる。
- 参考スコア(独自算出の注目度): 5.772467856207932
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current benchmarks for sign language recognition (SLR) focus mainly on isolated SLR, while there are limited datasets for continuous SLR (CSLR), which recognizes sequences of signs in a video. Additionally, existing CSLR datasets are collected in controlled settings, which restricts their effectiveness in building robust real-world CSLR systems. To address these limitations, we present Isharah, a large multi-scene dataset for CSLR. It is the first dataset of its type and size that has been collected in an unconstrained environment using signers' smartphone cameras. This setup resulted in high variations of recording settings, camera distances, angles, and resolutions. This variation helps with developing sign language understanding models capable of handling the variability and complexity of real-world scenarios. The dataset consists of 30,000 video clips performed by 18 deaf and professional signers. Additionally, the dataset is linguistically rich as it provides a gloss-level annotation for all dataset's videos, making it useful for developing CSLR and sign language translation (SLT) systems. This paper also introduces multiple sign language understanding benchmarks, including signer-independent and unseen-sentence CSLR, along with gloss-based and gloss-free SLT. The Isharah dataset is available on https://snalyami.github.io/Isharah_CSLR/.
- Abstract(参考訳): 現在、手話認識(SLR)のためのベンチマークは、主に孤立SLRに焦点を当てているが、連続SLR(CSLR)のための限られたデータセットは、ビデオ内のサインのシーケンスを認識する。
さらに、既存のCSLRデータセットは制御された設定で収集され、ロバストな現実世界のCSLRシステムの構築における有効性を制限する。
これらの制約に対処するため、CSLR用の大規模マルチシーンデータセットであるIsharahを提示する。
これは、署名者のスマートフォンカメラを使用して制約のない環境で収集された、そのタイプとサイズの最初のデータセットである。
この設定により、記録設定、カメラ距離、角度、解像度が変化した。
このバリエーションは、現実世界のシナリオの多様性と複雑さを扱うことのできる手話理解モデルの開発に役立つ。
データセットは18人の聴覚障害者とプロのシグナーによる3万本のビデオクリップで構成されている。
さらに、データセットはすべてのデータセットのビデオに対してグロスレベルのアノテーションを提供するため、言語的にリッチであり、CSLRと手話翻訳(SLT)システムを開発するのに有用である。
また,複数の手話理解ベンチマークを導入し,手話に依存しないCSLRとグロスベースとグロスフリーのSLTを併用した。
Isharahデータセットはhttps://snalyami.github.io/Isharah_CSLR/で公開されている。
関連論文リスト
- Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。
Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。
視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文 参考訳(メタデータ) (2025-05-15T16:31:49Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Signing Outside the Studio: Benchmarking Background Robustness for
Continuous Sign Language Recognition [79.23777980180755]
本稿では,既存の連続手話認識ベンチマークを用いて,ベンチマークデータセットを自動的に生成するパイプラインを提案する。
新たに構築したベンチマークデータセットは,実環境をシミュレートする多様なシーンで構成されている。
そこで本研究では,(1)背景ランダム化と(2)CSLRモデルの特徴的乱れを含む,シンプルで効果的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T13:27:44Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。