Fugu-MT 論文翻訳(概要): YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

論文の概要: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus

arxiv url: http://arxiv.org/abs/2306.15162v2
Date: Thu, 26 Oct 2023 22:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 17:29:17.023848
Title: YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus
Title（参考訳）: youtube-asl:大規模でオープンドメインのアメリカ手話-英語並列コーパス
Authors: David Uthus, Garrett Tanzer, Manfred Georg
Abstract要約: 本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。 ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
参考スコア（独自算出の注目度）: 2.5782420501870296
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results.
Abstract（参考訳）: 手話の機械学習はデータによってボトルネックされる。本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。 1000時間の動画と2500のユニークなシグナで、YouTube-ASLは3倍程度の大きさで、ASLデータセットの最大の10倍のユニークなシグナを持つ。我々は、aslのベースラインモデルをyoutube-aslの英語翻訳に訓練し、how2signでそれらを評価し、12.39 bleuの新しい微調整状態を達成し、初めてゼロショットの結果を報告した。

関連論文リスト

Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。 i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文参考訳（メタデータ） (2025-12-08T21:05:46Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
The American Sign Language Knowledge Graph: Infusing ASL Models with Linguistic Knowledge [6.481946043182915]
専門的な言語知識の12つの情報源からコンパイルされたASLKG(American Sign Language Knowledge Graph)を紹介する。我々は、ASLKGを用いて、3つのASL理解タスクのニューロシンボリックモデルをトレーニングし、ISRで91%のアキュラシーを達成し、14%の未確認のサインのセマンティックな特徴を予測し、36%のYoutube-ASLビデオのトピックを分類した。
論文参考訳（メタデータ） (2024-11-06T00:16:16Z)
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus [6.389882065284251]
本稿では,手話ビデオの大規模オープンドメイン多言語コーパスであるYouTube-SL-25を紹介する。 3000時間以上のビデオが25以上の手話言語で使用されているため、YouTube-SL-25は、これまでで最大の並列手話データセットである。
論文参考訳（メタデータ） (2024-07-15T18:08:34Z)
Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文参考訳（メタデータ） (2024-06-30T21:40:26Z)
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文参考訳（メタデータ） (2023-09-26T23:55:57Z)
SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文参考訳（メタデータ） (2022-10-13T07:08:00Z)
LAMDA-SSL: Semi-Supervised Learning in Python [56.14115592683035]
LAMDA-SSLはGitHubでオープンソース化されており、その詳細な使用法ドキュメントはhttps://ygzwqzd.github.io/LAMDA-SSL/で公開されている。このドキュメントは、LAMDA-SSLツールキットとSSLアルゴリズムでユーザを慣れさせるコストを大幅に削減します。
論文参考訳（メタデータ） (2022-08-09T09:06:48Z)
Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。 OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文参考訳（メタデータ） (2022-05-25T15:43:31Z)
Read and Attend: Temporal Localisation in Sign Language Videos [84.30262812057994]
我々は,連続署名ストリームを取り込み,一連の文書トークンを出力するトランスフォーマーモデルを訓練する。入力シーケンス内の符号インスタンスの大規模な語彙に出席する能力を得て,その局所化を可能にすることを示す。
論文参考訳（メタデータ） (2021-03-30T16:39:53Z)
End-to-end Generative Zero-shot Learning via Few-shot Learning [76.9964261884635]
ゼロショット学習(ZSL)の最先端アプローチでは、生成ネットをトレーニングし、提供されたメタデータに条件付きサンプルを合成する。本稿では,このような手法をバックボーンとして使用し,合成した出力をFew-Shot Learningアルゴリズムに供給するエンドツーエンド生成ZSLフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-08T17:35:37Z)
Modeling Global Body Configurations in American Sign Language [2.8575516056239576]
アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。 ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
論文参考訳（メタデータ） (2020-09-03T06:20:10Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。