論文の概要: High Quality Human Image Animation using Regional Supervision and Motion Blur Condition
- arxiv url: http://arxiv.org/abs/2409.19580v1
- Date: Sun, 29 Sep 2024 06:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:19.516004
- Title: High Quality Human Image Animation using Regional Supervision and Motion Blur Condition
- Title(参考訳): 地域スーパービジョンとモーションブラー条件を用いた高品質な人体画像アニメーション
- Authors: Zhongcong Xu, Chaoyue Song, Guoxian Song, Jianfeng Zhang, Jun Hao Liew, Hongyi Xu, You Xie, Linjie Luo, Guosheng Lin, Jiashi Feng, Mike Zheng Shou,
- Abstract要約: 我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
- 参考スコア(独自算出の注目度): 97.97432499053966
- License:
- Abstract: Recent advances in video diffusion models have enabled realistic and controllable human image animation with temporal coherence. Although generating reasonable results, existing methods often overlook the need for regional supervision in crucial areas such as the face and hands, and neglect the explicit modeling for motion blur, leading to unrealistic low-quality synthesis. To address these limitations, we first leverage regional supervision for detailed regions to enhance face and hand faithfulness. Second, we model the motion blur explicitly to further improve the appearance quality. Third, we explore novel training strategies for high-resolution human animation to improve the overall fidelity. Experimental results demonstrate that our proposed method outperforms state-of-the-art approaches, achieving significant improvements upon the strongest baseline by more than 21.0% and 57.4% in terms of reconstruction precision (L1) and perceptual quality (FVD) on HumanDance dataset. Code and model will be made available.
- Abstract(参考訳): 近年,映像拡散モデルの進歩により,時間的コヒーレンスを伴う現実的で制御可能な人間の画像アニメーションが実現されている。
合理的な結果を生み出すが、既存の手法は、顔や手などの重要な領域における地域監督の必要性を無視し、動きのぼやけを明示的にモデル化することを無視し、非現実的な低品質合成に繋がる。
これらの制限に対処するために、我々はまず、顔と手の忠実度を高めるために、詳細領域の地域監督を活用する。
第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。
第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
実験の結果,提案手法は最先端の手法よりも優れており,HumanDanceデータセットの再現精度 (L1) と知覚品質 (FVD) において,最強のベースラインを21.0%以上,57.4%以上向上した。
コードとモデルは利用可能になる。
関連論文リスト
- Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。
我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文 参考訳(メタデータ) (2024-07-02T14:01:59Z) - KeepOriginalAugment: Single Image-based Better Information-Preserving Data Augmentation Approach [46.74201905814679]
高度な画像データ拡張技術は、多様なコンピュータビジョンタスクのためのモデルのトレーニングを強化する上で重要な役割を果たす。
本研究では,新しいデータ拡張手法であるKeepOriginalAugmentを紹介する。
データの多様性と情報保存のバランスを保ちながら、KeepOriginalAugmentはモデルが多様な正当性と非正当性の両方を活用することを可能にする。
論文 参考訳(メタデータ) (2024-05-10T09:37:36Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion
Prediction [11.997928273335129]
既存の方法は、観測された過去の動きからのみ、身体の動きを合成している。
本稿では、人間の動きを生成する新しい視線誘導聴覚モデルであるGazeMoDiffを紹介する。
私たちの研究は、視線誘導による人間の動き予測に向けての第一歩を踏み出します。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - Face Animation with an Attribute-Guided Diffusion Model [41.43427420949979]
属性誘導拡散モデル(FADM)を用いた顔アニメーションフレームワークを提案する。
FADMは、フォトリアリスティックな対話ヘッド生成のための拡散モデルの優れたモデリング能力を利用するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-06T16:22:32Z) - HDHumans: A Hybrid Approach for High-fidelity Digital Humans [107.19426606778808]
HDHumansは、正確な時間的コヒーレントな3D変形面を共同で生成する、HDヒューマン文字合成の最初の方法である。
我々の手法は、古典的表面変形とニューラル放射場(NeRF)の相乗効果を達成するために慎重に設計されている。
論文 参考訳(メタデータ) (2022-10-21T14:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。