論文の概要: Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation
- arxiv url: http://arxiv.org/abs/2204.05953v1
- Date: Tue, 12 Apr 2022 17:09:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:31:46.196090
- Title: Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation
- Title(参考訳): より詳細なガイダンスを探求する: データ拡張による手話翻訳のためのタスクアウェアインストラクションネットワーク
- Authors: Yong Cao, Wei Li, Xianzhi Li, Min Chen, Guangyong Chen, Long Hu,
Zhengdao Li, Hwang Kai
- Abstract要約: 手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
- 参考スコア(独自算出の注目度): 20.125265661134964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition and translation first uses a recognition module to
generate glosses from sign language videos and then employs a translation
module to translate glosses into spoken sentences. Most existing works focus on
the recognition step, while paying less attention to sign language translation.
In this work, we propose a task-aware instruction network, namely TIN-SLT, for
sign language translation, by introducing the instruction module and the
learning-based feature fuse strategy into a Transformer network. In this way,
the pre-trained model's language ability can be well explored and utilized to
further boost the translation performance. Moreover, by exploring the
representation space of sign language glosses and target spoken language, we
propose a multi-level data augmentation scheme to adjust the data distribution
of the training set. We conduct extensive experiments on two challenging
benchmark datasets, PHOENIX-2014-T and ASLG-PC12, on which our method
outperforms former best solutions by 1.65 and 1.42 in terms of BLEU-4. Our code
is published at https://github.com/yongcaoplus/TIN-SLT.
- Abstract(参考訳): 手話認識と翻訳は、まず認識モジュールを使用して手話ビデオから光沢を生成し、次に翻訳モジュールを使用して音声文に翻訳する。
既存の作業の多くは認識ステップに重点を置いており、手話翻訳にはあまり注意を払わない。
本研究では,手話翻訳のためのタスク認識型命令ネットワークであるTIN-SLTを提案する。
このように、事前学習されたモデルの言語能力はよく検討され、翻訳性能をさらに高めるために利用される。
さらに,手話グルースとターゲット音声言語の表現空間を探索することにより,トレーニングセットのデータ分布を調整するための多段階データ拡張スキームを提案する。
我々は,PHOENIX-2014-T と ASLG-PC12 という2つの挑戦的ベンチマークデータセットに対して,BLEU-4 の2つの実験を行った。
私たちのコードはhttps://github.com/yongcaoplus/TIN-SLTで公開されています。
関連論文リスト
- Is context all you need? Scaling Neural Sign Language Translation to
Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。
本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文 参考訳(メタデータ) (2023-08-18T15:27:22Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language
Translation [71.31075396354406]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
XmDAは、クロスモダリティ混合とクロスモダリティ知識蒸留という2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。