論文の概要: Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D
Poses
- arxiv url: http://arxiv.org/abs/2012.10941v2
- Date: Mon, 4 Jan 2021 14:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 07:56:10.610821
- Title: Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D
Poses
- Title(参考訳): 誰でもサインできるのか?
2次元ポーズによる手話ビデオ生成の検討
- Authors: Lucas Ventura, Amanda Duarte, Xavier Giro-i-Nieto
- Abstract要約: 2Dポーズスケルトンでサインランゲージを実行する署名者のビデオを生成するために、モーション転送にDeep Learningの最先端の技術を使用します。
生成した動画を定量的かつ定性的に評価し、現状のモデルが手話の細部が不足しているため、手話で十分な動画を生成するには不十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work have addressed the generation of human poses represented by 2D/3D
coordinates of human joints for sign language. We use the state of the art in
Deep Learning for motion transfer and evaluate them on How2Sign, an American
Sign Language dataset, to generate videos of signers performing sign language
given a 2D pose skeleton. We evaluate the generated videos quantitatively and
qualitatively showing that the current models are not enough to generated
adequate videos for Sign Language due to lack of detail in hands.
- Abstract(参考訳): 最近の研究は、手話のための人間の関節の2D/3D座標で表される人間のポーズの生成に対処している。
モーション転送のためのディープラーニングの最先端技術を用いて,アメリカの手話データセットhow2signを用いて,手話を実行する手話映像を2次元ポーズスケルトンで生成する。
筆者らは,手作業の細部が不足しているため,手話の適切なビデオを生成するには,現在のモデルでは不十分であることを示す。
関連論文リスト
- SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。
本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。
私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文 参考訳(メタデータ) (2024-01-09T18:59:49Z) - Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。
まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。
従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文 参考訳(メタデータ) (2023-12-20T10:53:06Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Human Part-wise 3D Motion Context Learning for Sign Language Recognition [54.772707210595065]
本稿では,手話認識のためのP3Dを提案する。
我々の主な貢献は、パートワイズ動作の文脈を学習し、ポーズアンサンブルを用いて2Dと3Dのポーズを併用することである。
論文 参考訳(メタデータ) (2023-08-18T05:01:52Z) - Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。
孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。
SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文 参考訳(メタデータ) (2023-04-20T17:29:50Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。