論文の概要: Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives
- arxiv url: http://arxiv.org/abs/2107.11317v2
- Date: Mon, 26 Jul 2021 09:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 10:21:58.413076
- Title: Mixed SIGNals: Sign Language Production via a Mixture of Motion
Primitives
- Title(参考訳): Mixed SIGNals: モーションプリミティブの混合による手話生成
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: アバターをベースとした手話生成(SLP)は伝統的に、手の動きのシーケンスと表情のアニメーションを構築してきた。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
アニメーションのサブタスクは、学習した手話表現によく似た表現的な手話列を生成することを目的としている。
- 参考スコア(独自算出の注目度): 37.679114155300084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is common practice to represent spoken languages at their phonetic level.
However, for sign languages, this implies breaking motion into its constituent
motion primitives. Avatar based Sign Language Production (SLP) has
traditionally done just this, building up animation from sequences of hand
motions, shapes and facial expressions. However, more recent deep learning
based solutions to SLP have tackled the problem using a single network that
estimates the full skeletal structure.
We propose splitting the SLP task into two distinct jointly-trained
sub-tasks. The first translation sub-task translates from spoken language to a
latent sign language representation, with gloss supervision. Subsequently, the
animation sub-task aims to produce expressive sign language sequences that
closely resemble the learnt spatio-temporal representation. Using a progressive
transformer for the translation sub-task, we propose a novel Mixture of Motion
Primitives (MoMP) architecture for sign language animation. A set of distinct
motion primitives are learnt during training, that can be temporally combined
at inference to animate continuous sign language sequences.
We evaluate on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T)
dataset, presenting extensive ablation studies and showing that MoMP
outperforms baselines in user evaluations. We achieve state-of-the-art back
translation performance with an 11% improvement over competing results.
Importantly, and for the first time, we showcase stronger performance for a
full translation pipeline going from spoken language to sign, than from gloss
to sign.
- Abstract(参考訳): 音声言語を音声レベルで表現することが一般的である。
しかし、手話では、これは運動を構成運動プリミティブに分解することを意味する。
アバターをベースとした手話生成(SLP)は伝統的に、手の動き、形状、表情の連続からアニメーションを構築してきた。
しかし、より最近のSLPに対するディープラーニングベースのソリューションは、完全な骨格構造を推定する単一のネットワークを用いてこの問題に対処している。
我々はSLPタスクを2つの異なる訓練されたサブタスクに分割することを提案する。
最初の翻訳サブタスクは音声言語から潜在手話表現に翻訳され、光沢を監督する。
その後、アニメーションのサブタスクは、学習時空間表現によく似た表現的な手話シーケンスを作ることを目的としている。
翻訳サブタスクにプログレッシブトランスフォーマティブを用いることで,手話アニメーションのための運動プリミティブ(momp)アーキテクチャを新たに混合する手法を提案する。
異なる動きプリミティブのセットはトレーニング中に学習され、推論時に時間的に組み合わせて連続手話列をアニメーション化することができる。
本稿では,RWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットの評価を行った。
我々は、競合する結果よりも11%改善した最先端のバック翻訳性能を実現する。
重要なことに、私たちは初めて、音声言語からサインへの完全な翻訳パイプラインのパフォーマンスを、光沢からサインへというよりも強く示しています。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - A Data-Driven Representation for Sign Language Production [26.520016084139964]
手話生産は、手話文を自動的に手話の連続配列に変換することを目的としている。
現在の最先端のアプローチは、作業する言語資源の不足に依存しています。
本稿では,連続ポーズ生成問題を離散列生成問題に変換することによって,革新的な解を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:52:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。