論文の概要: iSign: A Benchmark for Indian Sign Language Processing
- arxiv url: http://arxiv.org/abs/2407.05404v1
- Date: Sun, 7 Jul 2024 15:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:47:49.318778
- Title: iSign: A Benchmark for Indian Sign Language Processing
- Title(参考訳): iSign: インド手話処理のベンチマーク
- Authors: Abhinav Joshi, Romit Mohanty, Mounika Kanakanti, Andesha Mangla, Sudeep Choudhary, Monali Barbate, Ashutosh Modi,
- Abstract要約: iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 5.967764101493575
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Indian Sign Language has limited resources for developing machine learning and data-driven approaches for automated language processing. Though text/audio-based language processing techniques have shown colossal research interest and tremendous improvements in the last few years, Sign Languages still need to catch up due to the need for more resources. To bridge this gap, in this work, we propose iSign: a benchmark for Indian Sign Language (ISL) Processing. We make three primary contributions to this work. First, we release one of the largest ISL-English datasets with more than 118K video-sentence/phrase pairs. To the best of our knowledge, it is the largest sign language dataset available for ISL. Second, we propose multiple NLP-specific tasks (including SignVideo2Text, SignPose2Text, Text2Pose, Word Prediction, and Sign Semantics) and benchmark them with the baseline models for easier access to the research community. Third, we provide detailed insights into the proposed benchmarks with a few linguistic insights into the workings of ISL. We streamline the evaluation of Sign Language processing, addressing the gaps in the NLP research community for Sign Languages. We release the dataset, tasks, and models via the following website: https://exploration-lab.github.io/iSign/
- Abstract(参考訳): Indian Sign Languageには、機械学習と自動言語処理のためのデータ駆動アプローチを開発するための限られたリソースがある。
テキスト/オーディオベースの言語処理技術は、過去数年間で膨大な研究の関心と大幅な改善を示してきたが、より多くのリソースを必要とするため、手話は追いつく必要がある。
このギャップを埋めるため、本研究では、インド手話処理(ISL)のベンチマークであるiSignを提案する。
私たちはこの仕事に3つの主要な貢献をしている。
まず、118K以上のビデオ文/フレーズペアを持つISL- Englishデータセットの1つをリリースする。
我々の知る限りでは、ISLで利用可能な最大の手話データセットである。
次に,複数の NLP 固有のタスク (SignVideo2Text, SignPose2Text, Text2Pose, Word Prediction, Sign Semantics) を提案する。
第3に、提案したベンチマークに関する詳細な洞察と、ISLの動作に関する言語的な洞察を提供する。
我々は手話処理の評価を合理化し,手話研究コミュニティにおける手話研究のギャップに対処する。
データセット、タスク、モデルを以下のWebサイトでリリースします。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - ISLTranslate: Dataset for Translating Indian Sign Language [4.836352379142503]
In this paper introduced ISLTranslate, a translation dataset for continuous Indian Sign Language (ISL) with 31k ISL- English sentence/phrase pairs。
私たちの知る限りでは、これは連続したインド手話のための翻訳データセットとしては最大のものです。
論文 参考訳(メタデータ) (2023-07-11T17:06:52Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - OpenHands: Making Sign Language Recognition Accessible with Pose-based
Pretrained Models across Languages [2.625144209319538]
OpenHandsは、低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリである。
まず,事前学習モデルから抽出したポーズをデータの標準モダリティとして用いて,トレーニング時間を短縮し,効率的な推論を可能にする。
第2に、すべての6言語で4つのポーズベースの独立した手話認識モデルのチェックポイントをトレーニングし、リリースします。
第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。
論文 参考訳(メタデータ) (2021-10-12T10:33:02Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。