論文の概要: Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives
- arxiv url: http://arxiv.org/abs/2107.11317v2
- Date: Mon, 26 Jul 2021 09:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 10:21:58.413076
- Title: Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives
- Title(参考訳): Mixed SIGNals: モーションプリミティブの混合による手話生成
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: アバターをベースとした手話生成(SLP)は伝統的に、手の動きのシーケンスと表情のアニメーションを構築してきた。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
アニメーションのサブタスクは、学習した手話表現によく似た表現的な手話列を生成することを目的としている。
- 参考スコア(独自算出の注目度): 37.679114155300084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is common practice to represent spoken languages at their phonetic level.
However, for sign languages, this implies breaking motion into its constituent
motion primitives. Avatar based Sign Language Production (SLP) has
traditionally done just this, building up animation from sequences of hand
motions, shapes and facial expressions. However, more recent deep learning
based solutions to SLP have tackled the problem using a single network that
estimates the full skeletal structure.
We propose splitting the SLP task into two distinct jointly-trained
sub-tasks. The first translation sub-task translates from spoken language to a
latent sign language representation, with gloss supervision. Subsequently, the
animation sub-task aims to produce expressive sign language sequences that
closely resemble the learnt spatio-temporal representation. Using a progressive
transformer for the translation sub-task, we propose a novel Mixture of Motion
Primitives (MoMP) architecture for sign language animation. A set of distinct
motion primitives are learnt during training, that can be temporally combined
at inference to animate continuous sign language sequences.
We evaluate on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T)
dataset, presenting extensive ablation studies and showing that MoMP
outperforms baselines in user evaluations. We achieve state-of-the-art back
translation performance with an 11% improvement over competing results.
Importantly, and for the first time, we showcase stronger performance for a
full translation pipeline going from spoken language to sign, than from gloss
to sign.
- Abstract(参考訳): 音声言語を音声レベルで表現することが一般的である。
しかし、手話では、これは運動を構成運動プリミティブに分解することを意味する。
アバターをベースとした手話生成(SLP)は伝統的に、手の動き、形状、表情の連続からアニメーションを構築してきた。
しかし、より最近のSLPに対するディープラーニングベースのソリューションは、完全な骨格構造を推定する単一のネットワークを用いてこの問題に対処している。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
その後、アニメーションのサブタスクは、学習時空間表現によく似た表現的な手話シーケンスを作ることを目的としている。
翻訳サブタスクにプログレッシブトランスフォーマティブを用いることで,手話アニメーションのための運動プリミティブ(momp)アーキテクチャを新たに混合する手法を提案する。
異なる動きプリミティブのセットはトレーニング中に学習され、推論時に時間的に組み合わせて連続手話列をアニメーション化することができる。
本稿では,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットの評価を行った。
我々は、競合する結果よりも11%改善した最先端のバック翻訳性能を実現する。
重要なことに、私たちは初めて、音声言語からサインへの完全な翻訳パイプラインのパフォーマンスを、光沢からサインへというよりも強く示しています。
関連論文リスト
- Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Enhancing Portuguese Sign Language Animation with Dynamic Timing and
Mouthing [4.077612575801748]
本稿では,ポルトガル語手話の口調アニメーションに着目し,手話間の遷移を動的に表現する手法を提案する。
ネイティブシグナーは動的遷移を伴うアニメーションを好んだが、理解率と知覚自然度スコアに有意な差は見つからなかった。
結果は、計算言語学、人間とコンピュータの相互作用、および署名アバターの合成アニメーションに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-12T12:25:03Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Towards Automatic Speech to Sign Language Generation [35.22004819666906]
音声セグメントからシグナのポーズを生成するために訓練された多言語トランスフォーマーネットワークを提案する。
我々のモデルは、エンドツーエンドで連続的なサインポーズ列を生成することを学習する。
論文 参考訳(メタデータ) (2021-06-24T06:44:19Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:20:25Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。