論文の概要: SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language
- arxiv url: http://arxiv.org/abs/2210.06791v1
- Date: Thu, 13 Oct 2022 07:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 13:56:17.015326
- Title: SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language
- Title(参考訳): sdw-asl: アメリカ連続手話のための大規模データセット生成のための動的システム
- Authors: Yehong Jiang
- Abstract要約: ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite tremendous progress in natural language processing using deep
learning techniques in recent years, sign language production and comprehension
has advanced very little. One critical barrier is the lack of largescale
datasets available to the public due to the unbearable cost of labeled data
generation. Efforts to provide public data for American Sign Language (ASL)
comprehension have yielded two datasets, comprising more than thousand video
clips. These datasets are large enough to enable a meaningful start to deep
learning research on sign languages but are far too small to lead to any
solution that can be practically deployed. So far, there is still no suitable
dataset for ASL production. We proposed a system that can generate large scale
ASL datasets for continuous ASL. It is suitable for general ASL processing and
is particularly useful for ASL production. The continuous ASL dataset contains
English labeled human articulations in condensed body pose data formats. To
better serve the research community, we are releasing the first version of our
ASL dataset, which contains 30k sentences, 416k words, a vocabulary of 18k
words, in a total of 104 hours. This is the largest continuous sign language
dataset published to date in terms of video duration. We also describe a system
that can evolve and expand the dataset to incorporate better data processing
techniques and more contents when available. It is our hope that the release of
this ASL dataset and the sustainable dataset generation system to the public
will propel better deep-learning research in ASL natural language processing.
- Abstract(参考訳): 近年のディープラーニング技術による自然言語処理の進歩にもかかわらず、手話の生成と理解はほとんど進歩していない。
ひとつの重要な障壁は、ラベル付きデータ生成の耐え難いコストのために、公開可能な大規模なデータセットがないことである。
アメリカ手話(asl)理解のための公開データ提供の取り組みは、1000以上のビデオクリップを含む2つのデータセットを生み出した。
これらのデータセットは手話の研究に意味のある開始を可能にするのに十分な大きさですが、実際にデプロイ可能なソリューションに導くには小さすぎるのです。
今のところ、ASL生産に適したデータセットはありません。
本研究では,大規模ASLデータセットを連続的に生成するシステムを提案する。
一般的なASL処理に適しており、特にASL製造に有用である。
連続ASLデータセットは、凝縮体ポーズデータ形式の英語ラベル付き人間の調音を含む。
ASLデータセットの最初のバージョンは、30k文、416kワード、18kワードの語彙を合計104時間でリリースしています。
これはビデオの持続時間で公表された最大の連続手話データセットである。
また、データセットを進化させ拡張し、より優れたデータ処理技術とより多くのコンテンツを取り込むシステムについても述べる。
このASLデータセットと持続可能なデータセット生成システムを一般公開することで、ASL自然言語処理におけるより優れたディープラーニング研究が促進されることを期待しています。
関連論文リスト
- BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition [0.5497663232622964]
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
論文 参考訳(メタデータ) (2024-08-20T03:35:42Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。