Fugu-MT 論文翻訳(概要): A Data-Driven Representation for Sign Language Production

論文の概要: A Data-Driven Representation for Sign Language Production

arxiv url: http://arxiv.org/abs/2404.11499v1
Date: Wed, 17 Apr 2024 15:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 13:25:44.170994
Title: A Data-Driven Representation for Sign Language Production
Title（参考訳）: 手話生成のためのデータ駆動表現
Authors: Harry Walsh, Abolfazl Ravanshad, Mariam Rahmani, Richard Bowden,
Abstract要約: 手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。現在の最先端のアプローチは、作業する言語資源の不足に依存しています。本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
参考スコア（独自算出の注目度）: 26.520016084139964
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Phonetic representations are used when recording spoken languages, but no equivalent exists for recording signed languages. As a result, linguists have proposed several annotation systems that operate on the gloss or sub-unit level; however, these resources are notably irregular and scarce. Sign Language Production (SLP) aims to automatically translate spoken language sentences into continuous sequences of sign language. However, current state-of-the-art approaches rely on scarce linguistic resources to work. This has limited progress in the field. This paper introduces an innovative solution by transforming the continuous pose generation problem into a discrete sequence generation problem. Thus, overcoming the need for costly annotation. Although, if available, we leverage the additional information to enhance our approach. By applying Vector Quantisation (VQ) to sign language data, we first learn a codebook of short motions that can be combined to create a natural sequence of sign. Where each token in the codebook can be thought of as the lexicon of our representation. Then using a transformer we perform a translation from spoken language text to a sequence of codebook tokens. Each token can be directly mapped to a sequence of poses allowing the translation to be performed by a single network. Furthermore, we present a sign stitching method to effectively join tokens together. We evaluate on the RWTH-PHOENIX-Weather-2014T (PHOENIX14T) and the more challenging Meine DGS Annotated (mDGS) datasets. An extensive evaluation shows our approach outperforms previous methods, increasing the BLEU-1 back translation score by up to 72%.
Abstract（参考訳）: 音声表現は、音声言語を録音する際に使用されるが、符号付き言語を記録するための等価な表現は存在しない。その結果、言語学者は、グロスレベルまたはサブユニットレベルで動作するいくつかのアノテーションシステムを提案したが、これらのリソースは特に不規則で不足している。手話生成(SLP)は、手話文を自動的に手話の連続配列に変換することを目的としている。しかし、現在の最先端のアプローチは、機能する言語資源の不足に依存している。これは分野での進歩が限られている。本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。したがって、コストのかかるアノテーションの必要性を克服する。しかし、もし利用可能であれば、私たちのアプローチを強化するために追加情報を活用します。ベクトル量子化(Vector Quantisation, VQ)を言語データに応用することにより、私たちはまず、手話の自然なシーケンスを生成するために組み合わせられる短い動きのコードブックを学習する。コードブックの各トークンは、私たちの表現の語彙とみなすことができます。次に、変換器を用いて、音声言語テキストからコードブックトークンのシーケンスへの変換を行う。各トークンは、単一のネットワークで翻訳を行うことができる一連のポーズに、直接マッピングすることができる。さらに,トークンを効果的に結合する手根縫合法を提案する。我々は,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)とMeine DGS Annotated (mDGS)データセットについて検討した。提案手法は,BLEU-1の逆翻訳スコアを最大72%向上させるとともに,従来の手法よりも優れていた。

関連論文リスト

Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文参考訳（メタデータ） (2024-06-11T03:00:41Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。サインを効果的に縫合するための7段階のアプローチを提案する。我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文参考訳（メタデータ） (2024-05-13T11:44:57Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
Changing the Representation: Examining Language Representation for Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。 BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文参考訳（メタデータ） (2022-09-16T12:45:29Z)
SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文参考訳（メタデータ） (2021-12-08T11:04:52Z)
Improving Sign Language Translation with Monolingual Data by Sign Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文参考訳（メタデータ） (2021-05-26T08:49:30Z)
Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文参考訳（メタデータ） (2020-04-30T15:20:25Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。