論文の概要: Better Sign Language Translation with STMC-Transformer
- arxiv url: http://arxiv.org/abs/2004.00588v2
- Date: Tue, 3 Nov 2020 00:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:42:46.097076
- Title: Better Sign Language Translation with STMC-Transformer
- Title(参考訳): STMC変換器による手話翻訳の改善
- Authors: Kayo Yin and Jesse Read
- Abstract要約: 手話翻訳は、まず手話認識システムを使用して、ビデオから手話グルースを抽出する。
翻訳システムは、手話グルースから音声言語翻訳を生成する。
本稿では,STMC-Transformerを導入し,現状を5以上のBLEUと7つのBLEUで改善する。
- 参考スコア(独自算出の注目度): 9.835743237370218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR)
system to extract sign language glosses from videos. Then, a translation system
generates spoken language translations from the sign language glosses. This
paper focuses on the translation system and introduces the STMC-Transformer
which improves on the current state-of-the-art by over 5 and 7 BLEU
respectively on gloss-to-text and video-to-text translation of the
PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an increase
of over 16 BLEU.
We also demonstrate the problem in current methods that rely on gloss
supervision. The video-to-text translation of our STMC-Transformer outperforms
translation of GT glosses. This contradicts previous claims that GT gloss
translation acts as an upper bound for SLT performance and reveals that glosses
are an inefficient representation of sign language. For future SLT research, we
therefore suggest an end-to-end training of the recognition and translation
models, or using a different sign language annotation scheme.
- Abstract(参考訳): 手話翻訳(SLT)は、まず手話認識(SLR)システムを使用して、ビデオから手話グルースを抽出する。
そして、翻訳システムは、手話光沢から話し言葉翻訳を生成する。
本稿では,PHOENIX-Weather 2014TデータセットのGloss-to-text と Video-to-text の変換に対して,STMC-Transformerを導入し,現状を5 BLEU以上改善する。
ASLG-PC12コーパスでは16BLEU以上の増加を認めた。
また,光沢を監督する現在の手法における問題点を実証する。
STMC-Transformerの動画・テキスト翻訳はGTグロス翻訳より優れています。
これは、gt用語翻訳がslt性能の上限として作用し、用語が手話の非効率的な表現であることを示す以前の主張と矛盾する。
今後のslt研究のために、認識と翻訳モデルのエンドツーエンドのトレーニングや、異なる手話アノテーションスキームの使用を提案する。
関連論文リスト
- Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - VK-G2T: Vision and Context Knowledge enhanced Gloss2Text [60.57628465740138]
既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
本稿では,目標文の性質を学習するために手話ビデオの視覚的内容を活用し,文脈知識を活用して単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデル VK-G2Tを提案する。
論文 参考訳(メタデータ) (2023-12-15T21:09:34Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。