論文の概要: Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production
- arxiv url: http://arxiv.org/abs/2203.15354v1
- Date: Tue, 29 Mar 2022 08:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:08:04.427350
- Title: Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production
- Title(参考訳): 大規模署名:大規模写真リアリスティック手話生産のための手話の共作を学ぶ
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: 手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
- 参考スコア(独自算出の注目度): 43.45785951443149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign languages are visual languages, with vocabularies as rich as their
spoken language counterparts. However, current deep-learning based Sign
Language Production (SLP) models produce under-articulated skeleton pose
sequences from constrained vocabularies and this limits applicability. To be
understandable and accepted by the deaf, an automatic SLP system must be able
to generate co-articulated photo-realistic signing sequences for large domains
of discourse.
In this work, we tackle large-scale SLP by learning to co-articulate between
dictionary signs, a method capable of producing smooth signing while scaling to
unconstrained domains of discourse. To learn sign co-articulation, we propose a
novel Frame Selection Network (FS-Net) that improves the temporal alignment of
interpolated dictionary signs to continuous signing sequences. Additionally, we
propose SignGAN, a pose-conditioned human synthesis model that produces
photo-realistic sign language videos direct from skeleton pose. We propose a
novel keypoint-based loss function which improves the quality of synthesized
hand images.
We evaluate our SLP model on the large-scale meineDGS (mDGS) corpus,
conducting extensive user evaluation showing our FS-Net approach improves
co-articulation of interpolated dictionary signs. Additionally, we show that
SignGAN significantly outperforms all baseline methods for quantitative
metrics, human perceptual studies and native deaf signer comprehension.
- Abstract(参考訳): 手話言語は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
しかし、現在のディープラーニングベースの手話生成(SLP)モデルでは、制約付き語彙のアンダーアーティキュレートされたスケルトンがシーケンスされ、適用性が制限される。
難聴者が理解し受け入れるためには、自動SLPシステムは、談話の大きな領域に対して、共変光リアル署名シーケンスを生成する必要がある。
本研究では,制約のない言論領域に拡張しながらスムーズな署名を生成できる辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
そこで我々は,補間辞書符号と連続署名シーケンスの時間的アライメントを改善する新しいフレーム選択ネットワーク (FS-Net) を提案する。
さらに,スケルトンポーズから直接写真リアルな手話ビデオを生成する,ポーズ条件付き人体合成モデルSignGANを提案する。
合成画像の品質を向上させるキーポイントに基づく新たな損失関数を提案する。
我々は,大規模なmeineDGS(mDGS)コーパス上でSLPモデルを評価し,FS-Netアプローチが補間辞書記号の協調配列を改善することを示す広範なユーザ評価を行った。
さらに, SignGANは, 定量的指標, 人間の知覚研究, ネイティブ難聴者理解において, 基礎的手法を著しく上回っていることを示す。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Learnt Contrastive Concept Embeddings for Sign Recognition [33.72708697077754]
我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。
我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。
我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-18T12:47:18Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。
我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。
逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文 参考訳(メタデータ) (2020-08-27T23:05:54Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。