論文の概要: Jointly Harnessing Prior Structures and Temporal Consistency for Sign
Language Video Generation
- arxiv url: http://arxiv.org/abs/2207.03714v1
- Date: Fri, 8 Jul 2022 07:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:10:00.878493
- Title: Jointly Harnessing Prior Structures and Temporal Consistency for Sign
Language Video Generation
- Title(参考訳): 手話ビデオ生成における先行構造と時間的整合性の共同調和
- Authors: Yucheng Suo, Zhedong Zheng, Xiaohan Wang, Bang Zhang and Yi Yang
- Abstract要約: 本研究では,ユーザ写真を特定の単語の手話ビデオに転送できる移動転送システムについて検討する。
我々は、手話生成に最先端のモーショントランスファー手法を採用する際の2つの主要な制限を観察する。
我々は,手話ビデオ生成のための時間的一貫性と,人間の事前構造を協調的に最適化する構造対応時整合ネットワーク(STCNet)を提案する。
- 参考スコア(独自算出の注目度): 44.57051187830433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is the window for people differently-abled to express their
feelings as well as emotions. However, it remains challenging for people to
learn sign language in a short time. To address this real-world challenge, in
this work, we study the motion transfer system, which can transfer the user
photo to the sign language video of specific words. In particular, the
appearance content of the output video comes from the provided user image,
while the motion of the video is extracted from the specified tutorial video.
We observe two primary limitations in adopting the state-of-the-art motion
transfer methods to sign language generation:(1) Existing motion transfer works
ignore the prior geometrical knowledge of the human body. (2) The previous
image animation methods only take image pairs as input in the training stage,
which could not fully exploit the temporal information within videos. In an
attempt to address the above-mentioned limitations, we propose Structure-aware
Temporal Consistency Network (STCNet) to jointly optimize the prior structure
of human with the temporal consistency for sign language video generation.
There are two main contributions in this paper. (1) We harness a fine-grained
skeleton detector to provide prior knowledge of the body keypoints. In this
way, we ensure the keypoint movement in a valid range and make the model become
more explainable and robust. (2) We introduce two cycle-consistency losses,
i.e., short-term cycle loss and long-term cycle loss, which are conducted to
assure the continuity of the generated video. We optimize the two losses and
keypoint detector network in an end-to-end manner.
- Abstract(参考訳): 手話(英: sign language)とは、感情や感情を表現するための窓である。
しかし、人々が短期間で手話を学ぶことは依然として困難である。
この実世界の課題に対処するために,本研究では,特定の単語の手話映像にユーザ写真を転送できるモーショントランスファーシステムについて検討する。
特に、所定のチュートリアル映像から映像の動作を抽出しながら、出力映像の出現内容が提供されたユーザ画像から出力される。
本研究では,手話生成に最先端のモーショントランスファー手法を採用する際の2つの主要な限界を観察する:(1)既存のモーショントランスファー作業は,人体の以前の幾何学的知識を無視する。
2)従来の画像アニメーション手法では,訓練段階では画像ペアのみを入力とし,映像内の時間情報を十分に活用できなかった。
上記の制約に対処するために,手話ビデオ生成のための時間的整合性を持つ人間の事前構造を協調的に最適化する構造対応時整合ネットワーク(STCNet)を提案する。
この論文には2つの主な貢献がある。
1) ボディキーポイントの事前知識を提供するために, 微細なスケルトン検出器を利用する。
このようにして、有効な範囲におけるキーポイントの動きを確実にし、モデルをより説明しやすく、堅牢にする。
2) 生成したビデオの連続性を保証するために, 短期的サイクル損失と長期的サイクル損失という2つのサイクル整合性損失を導入する。
2つの損失とキーポイント検出ネットワークをエンドツーエンドに最適化する。
関連論文リスト
- Pose-Guided Fine-Grained Sign Language Video Generation [18.167413937989867]
本稿では,細粒度かつ動きに一貫性のある手話ビデオを生成するための新しい Pose-Guided Motion Model (PGMM) を提案する。
まず,光学式フローワープによる特徴量の変形を解消する新しい粗い運動モジュール(CMM)を提案する。
第2に、RGBのモーダル融合とポーズ特徴を導く新しいPose Fusion Module (PFM)を提案する。
論文 参考訳(メタデータ) (2024-09-25T07:54:53Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - One Shot Audio to Animated Video Generation [15.148595295859659]
本稿では,音声クリップと一人の未確認画像を入力として,任意の長さのアニメーション映像を生成する手法を提案する。
OneShotAu2AVは、(a)オーディオと同期している唇の動き、(b)点滅やまぶたの動きなどの自然な表情、(c)頭の動きなどのアニメーションビデオを生成することができます。
論文 参考訳(メタデータ) (2021-02-19T04:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。