論文の概要: RealisDance: Equip controllable character animation with realistic hands
- arxiv url: http://arxiv.org/abs/2409.06202v1
- Date: Tue, 10 Sep 2024 04:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:10:55.550978
- Title: RealisDance: Equip controllable character animation with realistic hands
- Title(参考訳): RealisDance:リアルな手で動かせるキャラクターアニメーション
- Authors: Jingkai Zhou, Benzhi Wang, Weihua Chen, Jingqi Bai, Dongyang Li, Aixi Zhang, Hao Xu, Mingyang Yang, Fan Wang,
- Abstract要約: 制御可能なキャラクタアニメーションは、与えられたキャラクタ画像からポーズシーケンスによって制御されるキャラクタビデオを生成する新興タスクである。
本稿では,これらすべての問題に対処するためにRealisDanceを提案する。
RealisDanceは3種類のポーズを適応的に利用し、破損したポーズシーケンスによるエラー発生を回避する。
- 参考スコア(独自算出の注目度): 20.26571062881136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable character animation is an emerging task that generates character videos controlled by pose sequences from given character images. Although character consistency has made significant progress via reference UNet, another crucial factor, pose control, has not been well studied by existing methods yet, resulting in several issues: 1) The generation may fail when the input pose sequence is corrupted. 2) The hands generated using the DWPose sequence are blurry and unrealistic. 3) The generated video will be shaky if the pose sequence is not smooth enough. In this paper, we present RealisDance to handle all the above issues. RealisDance adaptively leverages three types of poses, avoiding failed generation caused by corrupted pose sequences. Among these pose types, HaMeR provides accurate 3D and depth information of hands, enabling RealisDance to generate realistic hands even for complex gestures. Besides using temporal attention in the main UNet, RealisDance also inserts temporal attention into the pose guidance network, smoothing the video from the pose condition aspect. Moreover, we introduce pose shuffle augmentation during training to further improve generation robustness and video smoothness. Qualitative experiments demonstrate the superiority of RealisDance over other existing methods, especially in hand quality.
- Abstract(参考訳): 制御可能なキャラクタアニメーションは、与えられたキャラクタ画像からポーズシーケンスによって制御されるキャラクタビデオを生成する新興タスクである。
文字の一貫性は参照UNetを通じて大きく進歩しているが、他の重要な要素であるポーズ制御は、既存のメソッドで十分に研究されていないため、いくつかの問題が発生している。
1)入力ポーズシーケンスが破損した場合、生成が失敗する可能性がある。
2)DWPoseシークエンスを用いて作成した手はぼやけ,非現実的である。
3)ポーズシーケンスが十分にスムーズでない場合、生成されたビデオは不安定になる。
本稿では,これらすべての問題に対処するためにRealisDanceを提案する。
RealisDanceは3種類のポーズを適応的に利用し、破損したポーズシーケンスによるエラー発生を回避する。
これらのポーズタイプの中で、HaMeRは正確な手の3Dおよび深度情報を提供し、複雑なジェスチャーでもリアルな手を生成することができる。
メインUNetでの時間的注意に加えて、RealisDanceはポーズ誘導ネットワークに時間的注意を挿入し、ポーズ条件の側面からビデオを滑らかにする。
さらに,トレーニング中のポーズシャッフル増強を導入し,生成の堅牢性や映像のスムーズ性をさらに向上させる。
定性的実験は、特に手品質において、他の既存の方法よりもRealisDanceの方が優れていることを示す。
関連論文リスト
- DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models [36.04946047755508]
TCANはポーズ駆動の人間の画像アニメーション手法であり、誤ったポーズに頑健で、時間とともに一貫性がある。
ControlNetを凍結に保つために、LoRAをUNet層に適応させ、ポーズと外観の特徴の間に潜伏した空間を調整できるようにします。
論文 参考訳(メタデータ) (2024-07-12T06:02:13Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Single-Shot Freestyle Dance Reenactment [89.91619150027265]
ソースダンサーと対象者との間の動き伝達のタスクは、ポーズ伝達問題の特別なケースである。
本稿では,任意の映像シーケンスで1つの画像を再識別できる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-02T12:57:43Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。