論文の概要: Scaling Back-Translation with Domain Text Generation for Sign Language
Gloss Translation
- arxiv url: http://arxiv.org/abs/2210.07054v1
- Date: Thu, 13 Oct 2022 14:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:13:16.642728
- Title: Scaling Back-Translation with Domain Text Generation for Sign Language
Gloss Translation
- Title(参考訳): 手話翻訳のためのドメインテキスト生成によるバックトランスレーションのスケーリング
- Authors: Jinhui Ye, Wenxiang Jiao, Xing Wang and Zhaopeng Tu
- Abstract要約: 手話のグロス翻訳は、手話のグロスを音声のテキストに変換することを目的としている。
Back Translation (BT)は、ドメイン内の言語テキストを手話に翻訳することで、擬似並列データを生成する。
本稿では, Prompt ベースのドメインテキスト生成 (PGEN) 手法を提案する。
- 参考スコア(独自算出の注目度): 36.40377483258876
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language gloss translation aims to translate the sign glosses into
spoken language texts, which is challenging due to the scarcity of labeled
gloss-text parallel data. Back translation (BT), which generates
pseudo-parallel data by translating in-domain spoken language texts into sign
glosses, has been applied to alleviate the data scarcity problem. However, the
lack of large-scale high-quality domain spoken language text data limits the
effect of BT. In this paper, to overcome the limitation, we propose a Prompt
based domain text Generation (PGEN) approach to produce the large-scale
in-domain spoken language text data. Specifically, PGEN randomly concatenates
sentences from the original in-domain spoken language text data as prompts to
induce a pre-trained language model (i.e., GPT-2) to generate spoken language
texts in a similar style. Experimental results on three benchmarks of sign
language gloss translation in varied languages demonstrate that BT with spoken
language texts generated by PGEN significantly outperforms the compared
methods. In addition, as the scale of spoken language texts generated by PGEN
increases, the BT technique can achieve further improvements, demonstrating the
effectiveness of our approach. We release the code and data for facilitating
future research in this field.
- Abstract(参考訳): 手話グロス翻訳は,手話のグロスを音声のテキストに変換することを目的としており,これはラベル付きグロステキスト並列データの不足により困難である。
ドメイン内言語テキストを手話に翻訳することで擬似並列データを生成するバック翻訳(BT)が,データ不足問題を軽減するために応用されている。
しかし、大規模な高品質なドメイン言語テキストデータがないため、BTの効果は制限される。
本稿では,この制限を克服するために,大規模なドメイン内言語テキストデータを生成するために,Promptベースのドメインテキスト生成(PGEN)アプローチを提案する。
具体的には、PGENは、元のドメイン内言語テキストデータから文をランダムに連結し、事前訓練された言語モデル(GPT-2)を誘導し、同様のスタイルで音声言語テキストを生成する。
各種言語における手話グロス翻訳の3つのベンチマーク実験の結果, PGEN が生成した音声言語テキストを用いた BT は, 比較した手法よりも有意に優れていた。
さらに, PGEN が生成する音声テキストの規模が大きくなるにつれて, BT 技術はさらなる改善を実現し, 提案手法の有効性を実証する。
この分野での今後の研究を促進するためのコードとデータをリリースする。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。