論文の概要: YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
- arxiv url: http://arxiv.org/abs/2407.11144v1
- Date: Mon, 15 Jul 2024 18:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:41:08.167973
- Title: YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus
- Title(参考訳): YouTube-SL-25: 大規模でオープンな多言語対応言語並列コーパス
- Authors: Garrett Tanzer, Biao Zhang,
- Abstract要約: 本稿では,手話ビデオの大規模オープンドメイン多言語コーパスであるYouTube-SL-25を紹介する。
3000時間以上のビデオが25以上の手話言語で使用されているため、YouTube-SL-25は、これまでで最大の並列手話データセットである。
- 参考スコア(独自算出の注目度): 6.389882065284251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even for better-studied sign languages like American Sign Language (ASL), data is the bottleneck for machine learning research. The situation is worse yet for the many other sign languages used by Deaf/Hard of Hearing communities around the world. In this paper, we present YouTube-SL-25, a large-scale, open-domain multilingual corpus of sign language videos with seemingly well-aligned captions drawn from YouTube. With >3000 hours of videos across >25 sign languages, YouTube-SL-25 is a) >3x the size of YouTube-ASL, b) the largest parallel sign language dataset to date, and c) the first or largest parallel dataset for many of its component languages. We provide baselines for sign-to-text tasks using a unified multilingual multitask model based on T5 and report scores on benchmarks across 4 sign languages. The results demonstrate that multilingual transfer benefits both higher- and lower-resource sign languages within YouTube-SL-25.
- Abstract(参考訳): American Sign Language (ASL)のような研究の進んだ手話言語であっても、データは機械学習研究のボトルネックとなる。
この状況は、世界中のDeaf/Hard of Hearingコミュニティで使われている多くの手話にとって、いまだに悪化している。
本稿では,手話ビデオの大規模かつオープンな多言語コーパスであるYouTube-SL-25について紹介する。
3000時間以上のビデオが25のサイン言語で視聴されるYouTube-SL-25
a)>YouTube-ASLの3倍の大きさ。
b) これまでで最大の並列手話データセット、及び
c) 多くのコンポーネント言語において、最初の、または最大の並列データセット。
我々は,T5に基づく多言語マルチタスクモデルを用いた手話タスクのベースラインと,4つの手話言語を対象としたベンチマーク結果の報告を行う。
以上の結果から,YouTube-SL-25における多言語移動は高次および低次手話言語の両方にメリットがあることが示された。
関連論文リスト
- FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation [0.9790236766474201]
FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークであるFLEURS-ASLを導入する。
FLEURS-ASLは、ASLと200言語間の様々なタスクをテキストとして、あるいは102言語を音声として評価するために使用することができる。
タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んだ統一モデリングアプローチを用いて,ASLから英語テキストへのタスクのベースラインを提供する。
また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示す。
論文 参考訳(メタデータ) (2024-08-24T13:59:41Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus [2.5782420501870296]
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。
我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
論文 参考訳(メタデータ) (2023-06-27T02:44:07Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Open-Domain Sign Language Translation Learned from Online Video [32.89182994277633]
オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T15:43:31Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign
Language [37.578776156503906]
How2Signは、マルチモーダルかつマルチビューの連続した米国手話(ASL)データセットである。
80時間以上の手話ビデオの並列コーパスと、音声、英語の書き起こし、深さなどに対応する一連のモダリティから構成される。
3時間のサブセットがパノプティカル・スタジオで記録され、詳細な3Dポーズ推定が可能となった。
論文 参考訳(メタデータ) (2020-08-18T20:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。