論文の概要: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus
- arxiv url: http://arxiv.org/abs/2306.15162v2
- Date: Thu, 26 Oct 2023 22:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:29:17.023848
- Title: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus
- Title(参考訳): youtube-asl:大規模でオープンドメインのアメリカ手話-英語並列コーパス
- Authors: David Uthus, Garrett Tanzer, Manfred Georg
- Abstract要約: 本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。
我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning for sign languages is bottlenecked by data. In this paper,
we present YouTube-ASL, a large-scale, open-domain corpus of American Sign
Language (ASL) videos and accompanying English captions drawn from YouTube.
With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as
large and has ~10x as many unique signers as the largest prior ASL dataset. We
train baseline models for ASL to English translation on YouTube-ASL and
evaluate them on How2Sign, where we achieve a new finetuned state of the art of
12.39 BLEU and, for the first time, report zero-shot results.
- Abstract(参考訳): 手話の機械学習はデータによってボトルネックされる。
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
1000時間の動画と2500のユニークなシグナで、YouTube-ASLは3倍程度の大きさで、ASLデータセットの最大の10倍のユニークなシグナを持つ。
我々は、aslのベースラインモデルをyoutube-aslの英語翻訳に訓練し、how2signでそれらを評価し、12.39 bleuの新しい微調整状態を達成し、初めてゼロショットの結果を報告した。
関連論文リスト
- Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - LAMDA-SSL: Semi-Supervised Learning in Python [56.14115592683035]
LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。
このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
論文 参考訳(メタデータ) (2022-08-09T09:06:48Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。
入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文 参考訳(メタデータ) (2021-03-30T16:39:53Z) - End-to-end Generative Zero-shot Learning via Few-shot Learning [76.9964261884635]
ゼロショット学習(ZSL)の最先端アプローチでは、生成ネットをトレーニングし、提供されたメタデータに条件付きサンプルを合成する。
本稿では,このような手法をバックボーンとして使用し,合成した出力をFew-Shot Learningアルゴリズムに供給するエンドツーエンド生成ZSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:35:37Z) - Modeling Global Body Configurations in American Sign Language [2.8575516056239576]
アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。
ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
論文 参考訳(メタデータ) (2020-09-03T06:20:10Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。