論文の概要: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus
- arxiv url: http://arxiv.org/abs/2306.15162v1
- Date: Tue, 27 Jun 2023 02:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:01:43.261244
- Title: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus
- Title(参考訳): youtube-asl:大規模でオープンドメインのアメリカ手話-英語並列コーパス
- Authors: David Uthus, Garrett Tanzer, Manfred Georg
- Abstract要約: 本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。
我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning for sign languages is bottlenecked by data. In this paper,
we present YouTube-ASL, a large-scale, open-domain corpus of American Sign
Language (ASL) videos and accompanying English captions drawn from YouTube.
With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as
large and has ~10x as many unique signers as the largest prior ASL dataset. We
train baseline models for ASL to English translation on YouTube-ASL and
evaluate them on How2Sign, where we achieve a new finetuned state of the art of
12.39 BLEU and, for the first time, report zero-shot results.
- Abstract(参考訳): 手話の機械学習はデータによってボトルネックされる。
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
1000時間の動画と2500のユニークなシグナで、YouTube-ASLは3倍程度の大きさで、ASLデータセットの最大の10倍のユニークなシグナを持つ。
我々は、aslのベースラインモデルをyoutube-aslの英語翻訳に訓練し、how2signでそれらを評価し、12.39 bleuの新しい微調整状態を達成し、初めてゼロショットの結果を報告した。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - The American Sign Language Knowledge Graph: Infusing ASL Models with Linguistic Knowledge [6.481946043182915]
専門的な言語知識の12つの情報源からコンパイルされたASLKG(American Sign Language Knowledge Graph)を紹介する。
我々は、ASLKGを用いて、3つのASL理解タスクのニューロシンボリックモデルをトレーニングし、ISRで91%のアキュラシーを達成し、14%の未確認のサインのセマンティックな特徴を予測し、36%のYoutube-ASLビデオのトピックを分類した。
論文 参考訳(メタデータ) (2024-11-06T00:16:16Z) - YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus [6.389882065284251]
本稿では,手話ビデオの大規模オープンドメイン多言語コーパスであるYouTube-SL-25を紹介する。
3000時間以上のビデオが25以上の手話言語で使用されているため、YouTube-SL-25は、これまでで最大の並列手話データセットである。
論文 参考訳(メタデータ) (2024-07-15T18:08:34Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - LAMDA-SSL: Semi-Supervised Learning in Python [56.14115592683035]
LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。
このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-08-09T09:06:48Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - Modeling Global Body Configurations in American Sign Language [2.8575516056239576]
アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。
ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
論文 参考訳(メタデータ) (2020-09-03T06:20:10Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。