論文の概要: Open-Domain Sign Language Translation Learned from Online Video
- arxiv url: http://arxiv.org/abs/2205.12870v1
- Date: Wed, 25 May 2022 15:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:49:53.996177
- Title: Open-Domain Sign Language Translation Learned from Online Video
- Title(参考訳): オンラインビデオから学ぶオープンドメイン手話翻訳
- Authors: Bowen Shi and Diane Brentari and Greg Shakhnarovich and Karen Livescu
- Abstract要約: オンラインビデオサイトから収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLには200人以上の署名者から、さまざまなドメインで288時間のASLビデオが含まれている。
本稿では,手形と手形の特徴の事前学習と融合のためのプレテキストタスクとして手形検索を含む一連の手法を提案する。
- 参考スコア(独自算出の注目度): 32.89182994277633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on sign language translation--that is, translation from sign
language videos into sentences in a written language--has focused mainly on (1)
data collected in a controlled environment or (2) data in a specific domain,
which limits the applicability to real-world settings. In this paper, we
introduce OpenASL, a large-scale ASL-English dataset collected from online
video sites (e.g., YouTube). OpenASL contains 288 hours of ASL videos in
various domains (news, VLOGs, etc.) from over 200 signers and is the largest
publicly available ASL translation dataset to date. To tackle the challenges of
sign language translation in realistic settings and without glosses, we propose
a set of techniques including sign search as a pretext task for pre-training
and fusion of mouthing and handshape features. The proposed techniques produce
consistent and large improvements in translation quality, over baseline models
based on prior work. Our data, code and model will be publicly available at
https://github.com/chevalierNoir/OpenASL
- Abstract(参考訳): 既存の手話翻訳作業、すなわち手話ビデオから文章への翻訳は、(1)制御された環境で収集されたデータ、または(2)特定のドメインで収集されたデータに重点を置いており、実際の設定に適用性を制限する。
本稿では,オンラインビデオサイト(YouTubeなど)から収集した大規模ASL- EnglishデータセットであるOpenASLを紹介する。
OpenASLは、200以上の署名者から、さまざまなドメイン(更新、VLOGなど)で288時間のASLビデオを提供しており、これまでで最大の公開ASL翻訳データセットである。
そこで本研究では,手話翻訳の課題を解決するために,手話の事前学習と手形特徴の融合のためのプリテキストタスクとして,手話検索を含む一連の手法を提案する。
提案手法は,先行作業に基づくベースラインモデルよりも,翻訳品質の一貫性と大幅な改善を実現する。
私たちのデータ、コード、モデルはhttps://github.com/chevalierNoir/OpenASLで公開されます。
関連論文リスト
- Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English
Parallel Corpus [2.5782420501870296]
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
ASLのベースラインモデルをYouTube-ASLで英語翻訳にトレーニングし、How2Signで評価する。
我々は12.39BLEUの新しい細かな状態を実現し、ゼロショットの結果を初めて報告した。
論文 参考訳(メタデータ) (2023-06-27T02:44:07Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous
American Sign Language [0.0]
ASLデータセットの最初のバージョンは、30k文、416k単語、18k単語の語彙を合計104時間でリリースしています。
これはビデオの持続時間で現在まで発行されている最大の連続手話データセットである。
論文 参考訳(メタデータ) (2022-10-13T07:08:00Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。