論文の概要: Changing the Representation: Examining Language Representation for
Neural Sign Language Production
- arxiv url: http://arxiv.org/abs/2210.06312v1
- Date: Fri, 16 Sep 2022 12:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:26:09.519855
- Title: Changing the Representation: Examining Language Representation for
Neural Sign Language Production
- Title(参考訳): 表現の変化:ニューラル手話生成のための言語表現の検討
- Authors: Harry Walsh, Ben Saunders, Richard Bowden
- Abstract要約: ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
- 参考スコア(独自算出の注目度): 43.45785951443149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Sign Language Production (SLP) aims to automatically translate from
spoken language sentences to sign language videos. Historically the SLP task
has been broken into two steps; Firstly, translating from a spoken language
sentence to a gloss sequence and secondly, producing a sign language video
given a sequence of glosses. In this paper we apply Natural Language Processing
techniques to the first step of the SLP pipeline. We use language models such
as BERT and Word2Vec to create better sentence level embeddings, and apply
several tokenization techniques, demonstrating how these improve performance on
the low resource translation task of Text to Gloss. We introduce Text to
HamNoSys (T2H) translation, and show the advantages of using a phonetic
representation for sign language translation rather than a sign level gloss
representation. Furthermore, we use HamNoSys to extract the hand shape of a
sign and use this as additional supervision during training, further increasing
the performance on T2H. Assembling best practise, we achieve a BLEU-4 score of
26.99 on the MineDGS dataset and 25.09 on PHOENIX14T, two new state-of-the-art
baselines.
- Abstract(参考訳): Neural Sign Language Production (SLP) は、音声の文から手話ビデオへの自動翻訳を目的としている。
歴史的に、SLPタスクは2つのステップに分けられている: 第一に、音声言語文からグロスシーケンスに変換し、第二に、一連のグロスを与えられた手話ビデオを生成する。
本稿では,SLPパイプラインの第1段階に自然言語処理技術を適用する。
BERT や Word2Vec などの言語モデルを用いて文レベルの埋め込みを改善するとともに,いくつかのトークン化手法を適用し,テキストからグロスへの低リソース翻訳タスクの性能向上を実証する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いる利点を示す。
さらに,HamNoSysを用いて手形を抽出し,これをトレーニング中に追加指導として使用することにより,T2Hの性能をさらに向上させる。
ベストプラクティスを組立て、MineDGSデータセットで26.99点、PHOENIX14Tで25.09点のBLEU-4スコアを得る。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - VK-G2T: Vision and Context Knowledge enhanced Gloss2Text [60.57628465740138]
既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
本稿では,目標文の性質を学習するために手話ビデオの視覚的内容を活用し,文脈知識を活用して単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデル VK-G2Tを提案する。
論文 参考訳(メタデータ) (2023-12-15T21:09:34Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。