論文の概要: Controllable Human-centric Keyframe Interpolation with Generative Prior
- arxiv url: http://arxiv.org/abs/2506.03119v1
- Date: Tue, 03 Jun 2025 17:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.973835
- Title: Controllable Human-centric Keyframe Interpolation with Generative Prior
- Title(参考訳): 生成前処理による制御可能な人中心キーフレーム補間
- Authors: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy,
- Abstract要約: 本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 55.16558476905587
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.
- Abstract(参考訳): 既存の補間法では、事前訓練されたビデオ拡散を用いて、スパースサンプリングされたキーフレーム間の中間フレームを生成する。
3次元幾何学的ガイダンスがない状態では、これらの手法は複雑な人間の動きに対して妥当な結果を生み出すのに苦労し、合成されたダイナミクスを限定的に制御する。
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)について紹介する。
補間のためのリッチな空間的構造的手がかりを提供するため、3Dインフォームド制御モデルであるPoseFuse3Dは、3D形状と形状を2D潜在条件空間に変換する新しいSMPL-Xエンコーダと、これらの3Dキューを2Dポーズ埋め込みと統合する融合ネットワークを備えている。
評価のために,2次元ポーズと3次元SMPL-Xパラメータをアノテートした新しいデータセットCHKI-Videoを構築した。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端ベースラインを一貫して上回り,PSNRが9%,LPIPSが38%向上したことを示す。
我々のPoseFuse3Dモデルは補間精度を向上することを示した。
関連論文リスト
- I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。
提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-12T18:26:34Z) - 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
CHASEはスパース入力のみを使用して高密度なインプットレベルのパフォーマンスを実現する新しいフレームワークである。
トレーニングセットからの類似のポーズを活用することにより,変形したガウスを洗練する動的アバター調整(DAA)モジュールを導入する。
スパース入力用に設計されているが、CHASEはZJU-MoCapとH36Mデータセットのフル設定とスパース設定の両方で最先端のメソッドを超越している。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。