Fugu-MT 論文翻訳(概要): Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D Poses

論文の概要: Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D Poses

arxiv url: http://arxiv.org/abs/2012.10941v2
Date: Mon, 4 Jan 2021 14:44:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-01 07:56:10.610821
Title: Can Everybody Sign Now? Exploring Sign Language Video Generation from 2D Poses
Title（参考訳）: 誰でもサインできるのか? 2次元ポーズによる手話ビデオ生成の検討
Authors: Lucas Ventura, Amanda Duarte, Xavier Giro-i-Nieto
Abstract要約: 2Dポーズスケルトンでサインランゲージを実行する署名者のビデオを生成するために、モーション転送にDeep Learningの最先端の技術を使用します。生成した動画を定量的かつ定性的に評価し、現状のモデルが手話の細部が不足しているため、手話で十分な動画を生成するには不十分であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work have addressed the generation of human poses represented by 2D/3D coordinates of human joints for sign language. We use the state of the art in Deep Learning for motion transfer and evaluate them on How2Sign, an American Sign Language dataset, to generate videos of signers performing sign language given a 2D pose skeleton. We evaluate the generated videos quantitatively and qualitatively showing that the current models are not enough to generated adequate videos for Sign Language due to lack of detail in hands.
Abstract（参考訳）: 最近の研究は、手話のための人間の関節の2D/3D座標で表される人間のポーズの生成に対処している。モーション転送のためのディープラーニングの最先端技術を用いて,アメリカの手話データセットhow2signを用いて,手話を実行する手話映像を2次元ポーズスケルトンで生成する。筆者らは,手作業の細部が不足しているため,手話の適切なビデオを生成するには,現在のモデルでは不十分であることを示す。

関連論文リスト

SignX: The Foundation Model for Sign Recognition [28.651340554377906]
本稿では,手話認識のための基礎モデルフレームワークSignXを提案する。これは簡潔だが強力なフレームワークであり、複数の人間の活動認識シナリオに適用できる。実験結果から,SignXは手話ビデオからサインを認識でき,予測された光沢表現を従来よりも高精度に生成できることがわかった。
論文参考訳（メタデータ） (2025-04-22T23:23:39Z)
IlluSign: Illustrating Sign Language Videos by Leveraging the Attention Mechanism [52.64170845753814]
本研究は,手話映像を静的なイラストレーションに変換することを目的としている。本稿では,画像の意味的側面と幾何学的側面の両方を理解するための生成モデルの能力を活用することで,手話映像を描写する手法を提案する。我々のアプローチは,手話の映像にイラストのようなスケッチを移すことに重点を置いており,サインの開始フレームと終了フレームを1つのイラストに組み合わせている。
論文参考訳（メタデータ） (2025-04-15T02:53:32Z)
SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文参考訳（メタデータ） (2024-06-11T03:00:41Z)
A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars [49.60328609426056]
Spoken2Signは、音声言語を手話に変換するシステムである。本稿では,グロスビデオ辞書の作成,サインビデオ毎の3Dサインの推定,スポンケン2サインモデルのトレーニングという3つのステップからなる単純なベースラインを提案する。私たちが知っている限りでは、最初にSpken2Signタスクを3Dサインの出力フォーマットで提示します。
論文参考訳（メタデータ） (2024-01-09T18:59:49Z)
Sign Language Production with Latent Motion Transformer [2.184775414778289]
我々は、人間のポーズを中間ステップとして使うことなく、高品質なサインビデオを作成する新しい方法を開発した。まず、ジェネレータから学習し、次に、隠れた機能の順序を理解するために別のモデルを使用します。従来の最先端手法と比較して、我々のモデルは2つの単語レベル手話データセット上で一貫して性能が向上する。
論文参考訳（メタデータ） (2023-12-20T10:53:06Z)
DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文参考訳（メタデータ） (2023-11-27T18:26:19Z)
SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文参考訳（メタデータ） (2023-10-31T13:15:49Z)
Human Part-wise 3D Motion Context Learning for Sign Language Recognition [54.772707210595065]
本稿では,手話認識のためのP3Dを提案する。我々の主な貢献は、パートワイズ動作の文脈を学習し、ポーズアンサンブルを用いて2Dと3Dのポーズを併用することである。
論文参考訳（メタデータ） (2023-08-18T05:01:52Z)
Reconstructing Signing Avatars From Video Using Linguistic Priors [54.5282429129769]
手話(SL)は、世界中の7000万人の聴覚障害者のためのコミュニケーションの第一の方法である。孤立したサインの動画辞書を3Dアバターに置き換えることで、学習を支援し、AR/VRアプリケーションを有効にすることができる。 SGNifyは、細かな手ポーズ、表情、身体の動きを、WildのモノクロSLビデオから完全に自動でキャプチャする。
論文参考訳（メタデータ） (2023-04-20T17:29:50Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文参考訳（メタデータ） (2020-11-19T14:31:06Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。