論文の概要: High Quality Human Image Animation using Regional Supervision and Motion Blur Condition
- arxiv url: http://arxiv.org/abs/2409.19580v1
- Date: Sun, 29 Sep 2024 06:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:28:30.509391
- Title: High Quality Human Image Animation using Regional Supervision and Motion Blur Condition
- Title(参考訳): 地域スーパービジョンとモーションブラー条件を用いた高品質な人体画像アニメーション
- Authors: Zhongcong Xu, Chaoyue Song, Guoxian Song, Jianfeng Zhang, Jun Hao Liew, Hongyi Xu, You Xie, Linjie Luo, Guosheng Lin, Jiashi Feng, Mike Zheng Shou,
- Abstract要約: 我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
- 参考スコア(独自算出の注目度): 97.97432499053966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have enabled realistic and controllable human image animation with temporal coherence. Although generating reasonable results, existing methods often overlook the need for regional supervision in crucial areas such as the face and hands, and neglect the explicit modeling for motion blur, leading to unrealistic low-quality synthesis. To address these limitations, we first leverage regional supervision for detailed regions to enhance face and hand faithfulness. Second, we model the motion blur explicitly to further improve the appearance quality. Third, we explore novel training strategies for high-resolution human animation to improve the overall fidelity. Experimental results demonstrate that our proposed method outperforms state-of-the-art approaches, achieving significant improvements upon the strongest baseline by more than 21.0% and 57.4% in terms of reconstruction precision (L1) and perceptual quality (FVD) on HumanDance dataset. Code and model will be made available.
- Abstract(参考訳): 近年,映像拡散モデルの進歩により,時間的コヒーレンスを伴う現実的で制御可能な人間の画像アニメーションが実現されている。
合理的な結果を生み出すが、既存の手法は、顔や手などの重要な領域における地域監督の必要性を無視し、動きのぼやけを明示的にモデル化することを無視し、非現実的な低品質合成に繋がる。
これらの制限に対処するために、我々はまず、顔と手の忠実度を高めるために、詳細領域の地域監督を活用する。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
実験の結果,提案手法は最先端の手法よりも優れており,HumanDanceデータセットの再現精度 (L1) と知覚品質 (FVD) において,最強のベースラインを21.0%以上,57.4%以上向上した。
コードとモデルは利用可能になる。
関連論文リスト
- Efficient Neural Implicit Representation for 3D Human Reconstruction [38.241511336562844]
従来の3次元の人間の動きを再構築するには、高価なハードウェアを使う必要があり、高い処理コストがかかる。
本研究では,モノクラービデオソースから正確な人間のアバターを効率的に再構築する革新的アプローチであるHumanAvatarを提案する。
論文 参考訳(メタデータ) (2024-10-23T10:16:01Z) - Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss [12.565642618427844]
拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
論文 参考訳(メタデータ) (2024-09-13T19:09:19Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - Face Animation with an Attribute-Guided Diffusion Model [41.43427420949979]
属性誘導拡散モデル(FADM)を用いた顔アニメーションフレームワークを提案する。
FADMは、フォトリアリスティックな対話ヘッド生成のための拡散モデルの優れたモデリング能力を利用するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-06T16:22:32Z) - HDHumans: A Hybrid Approach for High-fidelity Digital Humans [107.19426606778808]
HDHumansは、正確な時間的コヒーレントな3D変形面を共同で生成する、HDヒューマン文字合成の最初の方法である。
我々の手法は、古典的表面変形とニューラル放射場(NeRF)の相乗効果を達成するために慎重に設計されている。
論文 参考訳(メタデータ) (2022-10-21T14:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。