論文の概要: Progressive Transformers for End-to-End Sign Language Production
- arxiv url: http://arxiv.org/abs/2004.14874v2
- Date: Mon, 20 Jul 2020 10:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 02:55:50.886798
- Title: Progressive Transformers for End-to-End Sign Language Production
- Title(参考訳): エンドツーエンド手話生成のためのプログレッシブトランス
- Authors: Ben Saunders and Necati Cihan Camgoz and Richard Bowden
- Abstract要約: 自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
- 参考スコア(独自算出の注目度): 43.45785951443149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of automatic Sign Language Production (SLP) is to translate spoken
language to a continuous stream of sign language video at a level comparable to
a human translator. If this was achievable, then it would revolutionise Deaf
hearing communications. Previous work on predominantly isolated SLP has shown
the need for architectures that are better suited to the continuous domain of
full sign sequences.
In this paper, we propose Progressive Transformers, a novel architecture that
can translate from discrete spoken language sentences to continuous 3D skeleton
pose outputs representing sign language. We present two model configurations,
an end-to-end network that produces sign direct from text and a stacked network
that utilises a gloss intermediary.
Our transformer network architecture introduces a counter that enables
continuous sequence generation at training and inference. We also provide
several data augmentation processes to overcome the problem of drift and
improve the performance of SLP models. We propose a back translation evaluation
mechanism for SLP, presenting benchmark quantitative results on the challenging
RWTH-PHOENIX-Weather-2014T(PHOENIX14T) dataset and setting baselines for future
research.
- Abstract(参考訳): 自動手話生成(automatic sign language production, slp)の目標は、音声言語を人間の翻訳者と同等のレベルで手話ビデオの連続ストリームに変換することである。
もしこれが達成できたら、聴覚障害者のコミュニケーションに革命をもたらすだろう。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
そこで,本稿では,個別音声文から連続3次元スケルトン文に手話を表す出力を変換できる新しいアーキテクチャであるprogressive transformersを提案する。
本稿では,テキストから直接署名を生成するエンドツーエンドネットワークと,光沢仲介を利用するスタックネットワークの2つのモデル構成を提案する。
我々のトランスネットワークアーキテクチャは、トレーニングと推論における連続シーケンス生成を可能にするカウンタを導入している。
また, ドリフトの問題を克服し, SLPモデルの性能を向上させるために, いくつかのデータ拡張プロセスも提供する。
本稿では,SLPの逆変換評価機構を提案し,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットのベンチマーク結果と今後の研究のベースラインの設定を行う。
関連論文リスト
- A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multi-channel Transformers for Multi-articulatory Sign Language
Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文 参考訳(メタデータ) (2020-09-01T09:10:55Z) - Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文 参考訳(メタデータ) (2020-08-27T23:05:54Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。