論文の概要: Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation
- arxiv url: http://arxiv.org/abs/2105.12397v1
- Date: Wed, 26 May 2021 08:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:41:29.047260
- Title: Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation
- Title(参考訳): 符号バック翻訳による単言語データによる手話翻訳の改善
- Authors: Hao Zhou, Wengang Zhou, Weizhen Qi, Junfu Pu, Houqiang Li
- Abstract要約: 本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
- 参考スコア(独自算出の注目度): 105.83166521438463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite existing pioneering works on sign language translation (SLT), there
is a non-trivial obstacle, i.e., the limited quantity of parallel sign-text
data. To tackle this parallel data bottleneck, we propose a sign
back-translation (SignBT) approach, which incorporates massive spoken language
texts into SLT training. With a text-to-gloss translation model, we first
back-translate the monolingual text to its gloss sequence. Then, the paired
sign sequence is generated by splicing pieces from an estimated gloss-to-sign
bank at the feature level. Finally, the synthetic parallel data serves as a
strong supplement for the end-to-end training of the encoder-decoder SLT
framework.
To promote the SLT research, we further contribute CSL-Daily, a large-scale
continuous SLT dataset. It provides both spoken language translations and
gloss-level annotations. The topic revolves around people's daily lives (e.g.,
travel, shopping, medical care), the most likely SLT application scenario.
Extensive experimental results and analysis of SLT methods are reported on
CSL-Daily. With the proposed sign back-translation method, we obtain a
substantial improvement over previous state-of-the-art SLT methods.
- Abstract(参考訳): 既存の手話翻訳 (slt) の先駆的研究にもかかわらず、並列的な手話データの量が限られているなど、非自明な障害がある。
この並列データボトルネックに対処するために,大規模な音声言語テキストをSLT訓練に組み込んだ手話バック翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをグロスシーケンスに逆変換する。
そして、推定された光沢対符号バンクから断片を特徴レベルでスプライシングして対符号シーケンスを生成する。
最後に、合成並列データはエンコーダデコーダSLTフレームワークのエンドツーエンドトレーニングの強力なサプリメントとして機能する。
SLT 研究を促進するため,大規模連続 SLT データセットである CSL-Daily をさらに貢献する。
言語翻訳と用語レベルのアノテーションの両方を提供する。
このトピックは、人々の日常生活(旅行、ショッピング、医療など)に関するもので、最も可能性の高いアプリケーションシナリオである。
CSL-Dailyにおいて,SLT法の大規模実験結果と解析を行った。
提案手法により,従来のslt法に比べて大幅な改善が得られた。
関連論文リスト
- Scaling Sign Language Translation [38.43594795927101]
手話翻訳(SLT)は、ビデオ中の手話からテキスト中の音声言語への情報を翻訳する問題に対処する。
本稿では,事前学習データ,モデルサイズ,翻訳方向の数を拡大することにより,SLTのフロンティアを推し進める。
実験では、バニラベースラインよりも大幅に品質が向上し、以前のSOTA(State-of-the-art)をはるかに上回った。
論文 参考訳(メタデータ) (2024-07-16T15:36:58Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Better Sign Language Translation with Monolingual Data [6.845232643246564]
署名言語変換(SLT)システムは、大規模並列G2Tペアの可用性に大きく依存している。
本稿では,大規模対象のモノリンガルデータを擬似グルースに自動的に書き起こす簡易かつ効率的なルール変換法を提案する。
実験の結果,提案手法はSLTの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-21T09:39:54Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Scaling Back-Translation with Domain Text Generation for Sign Language
Gloss Translation [36.40377483258876]
手話のグロス翻訳は、手話のグロスを音声のテキストに変換することを目的としている。
Back Translation (BT)は、ドメイン内の言語テキストを手話に翻訳することで、擬似並列データを生成する。
本稿では, Prompt ベースのドメインテキスト生成 (PGEN) 手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T14:25:08Z) - A Token-level Contrastive Framework for Sign Language Translation [9.185037439012952]
手話翻訳は、聴覚障害者と聴覚障害者のコミュニケーションギャップを埋める有望な技術である。
トークンレベルの新しい ConSLT を提案する。
textbfSign textbfLanguage用のコントラスト学習フレームワーク。
textbf翻訳。
論文 参考訳(メタデータ) (2022-04-11T07:33:26Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。