論文の概要: Open-Domain Sign Language Translation Learned from Online Video
- arxiv url: http://arxiv.org/abs/2205.12870v1
- Date: Wed, 25 May 2022 15:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:49:53.996177
- Title: Open-Domain Sign Language Translation Learned from Online Video
- Title(参考訳): オンラインビデオから学ぶオープンドメイン手話翻訳
- Authors: Bowen Shi and Diane Brentari and Greg Shakhnarovich and Karen Livescu
- Abstract要約: オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
- 参考スコア(独自算出の注目度): 32.89182994277633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on sign language translation--that is, translation from sign
language videos into sentences in a written language--has focused mainly on (1)
data collected in a controlled environment or (2) data in a specific domain,
which limits the applicability to real-world settings. In this paper, we
introduce OpenASL, a large-scale ASL-English dataset collected from online
video sites (e.g., YouTube). OpenASL contains 288 hours of ASL videos in
various domains (news, VLOGs, etc.) from over 200 signers and is the largest
publicly available ASL translation dataset to date. To tackle the challenges of
sign language translation in realistic settings and without glosses, we propose
a set of techniques including sign search as a pretext task for pre-training
and fusion of mouthing and handshape features. The proposed techniques produce
consistent and large improvements in translation quality, over baseline models
based on prior work. Our data, code and model will be publicly available at
https://github.com/chevalierNoir/OpenASL
- Abstract(参考訳): 既存の手話翻訳作業、すなわち手話ビデオから文章への翻訳は、(1)制御された環境で収集されたデータ、または(2)特定のドメインで収集されたデータに重点を置いており、実際の設定に適用性を制限する。
本稿では,オンラインビデオサイト(YouTubeなど)から収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLは、200以上の署名者から、さまざまなドメイン(更新、VLOGなど)で288時間のASLビデオを提供しており、これまでで最大の公開ASL翻訳データセットである。
そこで本研究では,手話翻訳の課題を解決するために,手話の事前学習と手形特徴の融合のためのプリテキストタスクとして,手話検索を含む一連の手法を提案する。
提案手法は,先行作業に基づくベースラインモデルよりも,翻訳品質の一貫性と大幅な改善を実現する。
私たちのデータ、コード、モデルはhttps://github.com/chevalierNoir/OpenASLで公開されます。
関連論文リスト
- FLEURS-ASL: Including American Sign Language in Massively Multilingual Multitask Evaluation [0.9790236766474201]
FLORES(テキスト用)とFLEURS(音声用)のマルチウェイ並列ベンチマークであるFLEURS-ASLを導入する。
FLEURS-ASLは、ASLと200言語間の様々なタスクをテキストとして、あるいは102言語を音声として評価するために使用することができる。
タイムスタンプトークンと過去のテキストトークンを34秒のコンテキストウィンドウに組み込んだ統一モデリングアプローチを用いて,ASLから英語テキストへのタスクのベースラインを提供する。
また、FLEURS-ASLを用いて、マルチモーダルフロンティアモデルがASLを事実上理解していないことを示す。
論文 参考訳(メタデータ) (2024-08-24T13:59:41Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus [2.5782420501870296]
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。
我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
論文 参考訳(メタデータ) (2023-06-27T02:44:07Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。