論文の概要: Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting
- arxiv url: http://arxiv.org/abs/2209.01470v2
- Date: Tue, 30 May 2023 17:07:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:45:28.334996
- Title: Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting
- Title(参考訳): neural sign reenactor: 深いフォトリアリスティックな手話再ターゲティング
- Authors: Christina O. Tze, Panagiotis P. Filntisis, Athanasia-Lida Dimou,
Anastasios Roussos, Petros Maragos
- Abstract要約: 本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
- 参考スコア(独自算出の注目度): 28.012212656892746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a neural rendering pipeline for transferring the
facial expressions, head pose, and body movements of one person in a source
video to another in a target video. We apply our method to the challenging case
of Sign Language videos: given a source video of a sign language user, we can
faithfully transfer the performed manual (e.g., handshape, palm orientation,
movement, location) and non-manual (e.g., eye gaze, facial expressions, mouth
patterns, head, and body movements) signs to a target video in a
photo-realistic manner. Our method can be used for Sign Language Anonymization,
Sign Language Production (synthesis module), as well as for reenacting other
types of full body activities (dancing, acting performance, exercising, etc.).
We conduct detailed qualitative and quantitative evaluations and comparisons,
which demonstrate the particularly promising and realistic results that we
obtain and the advantages of our method over existing approaches.
- Abstract(参考訳): 本稿では,ある人物の表情,頭部のポーズ,体の動きを,対象映像で他の人物に伝達する,ニューラルネットワークのレンダリングパイプラインを提案する。
本手法は手話映像の難易度の高い場合に適用できる:手話利用者のソースビデオが与えられた場合、実行された手話(手形、手のひら方向、移動、位置など)と非手動(目視、表情、口のパターン、頭、体の動きなど)のサインを、フォトリアリスティックな方法でターゲットビデオに忠実に転送することができる。
本手法は,手話匿名化や手話生成(合成モジュール),その他の全身活動(ダンス,演技,運動など)の再現に利用できる。
提案手法は,従来の手法に比べて,特に有望で現実的な結果を示し,その利点を実証する,詳細な質的,定量的な評価と比較を行う。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos [31.746152261362777]
In-the-wild」ビデオにおいて,アクターの感情状態をリアルに操作するための新しい深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
論文 参考訳(メタデータ) (2021-12-01T15:55:04Z) - Deep Semantic Manipulation of Facial Videos [5.048861360606916]
本稿では,ビデオにおける表情の写実的操作を行うための最初の方法を提案する。
本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。
提案手法は,3次元顔の形状と活動の歪んだ表現と推定に基づく。
論文 参考訳(メタデータ) (2021-11-15T16:55:16Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - ReenactNet: Real-time Full Head Reenactment [50.32988828989691]
本稿では,人間の頭部3Dポーズ,表情,視線をソースからターゲットアクターに完全に転送できるヘッドツーヘッドシステムを提案する。
本システムでは,高忠実度,時間的スムース,写真リアルな合成ビデオが生成され,ヒトの頭部特性を音源からターゲット俳優に忠実に伝達する。
論文 参考訳(メタデータ) (2020-05-22T00:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。