論文の概要: PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence
- arxiv url: http://arxiv.org/abs/2512.13465v1
- Date: Mon, 15 Dec 2025 16:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.737912
- Title: PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence
- Title(参考訳): PoseAnything: パーソナライズされた時間的コヒーレンスを備えたユニバーサルなPose-Guidedビデオ生成
- Authors: Ruiyan Wang, Teng Hu, Kaihui Huang, Zihan Su, Ran Yi, Lizhuang Ma,
- Abstract要約: ポーズ誘導映像生成(Pose-Guided video generation)とは、ポーズの連続を通して生成された映像中の被写体の動きを制御すること。
我々は、人間と非人間の両方を扱える初のユニバーサルポーズ誘導ビデオ生成フレームワークであるPoseAnythingを提案する。
提案するXPoseは,5万対のポーズビデオと,アノテーションとフィルタリングのための自動パイプラインを含む高品質な公開データセットである。
- 参考スコア(独自算出の注目度): 67.78835640962167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-guided video generation refers to controlling the motion of subjects in generated video through a sequence of poses. It enables precise control over subject motion and has important applications in animation. However, current pose-guided video generation methods are limited to accepting only human poses as input, thus generalizing poorly to pose of other subjects. To address this issue, we propose PoseAnything, the first universal pose-guided video generation framework capable of handling both human and non-human characters, supporting arbitrary skeletal inputs. To enhance consistency preservation during motion, we introduce Part-aware Temporal Coherence Module, which divides the subject into different parts, establishes part correspondences, and computes cross-attention between corresponding parts across frames to achieve fine-grained part-level consistency. Additionally, we propose Subject and Camera Motion Decoupled CFG, a novel guidance strategy that, for the first time, enables independent camera movement control in pose-guided video generation, by separately injecting subject and camera motion control information into the positive and negative anchors of CFG. Furthermore, we present XPose, a high-quality public dataset containing 50,000 non-human pose-video pairs, along with an automated pipeline for annotation and filtering. Extensive experiments demonstrate that Pose-Anything significantly outperforms state-of-the-art methods in both effectiveness and generalization.
- Abstract(参考訳): ポーズ誘導映像生成(Pose-Guided video generation)とは、ポーズの連続を通して生成された映像中の被写体の動きを制御すること。
被写体の動きを正確に制御することができ、アニメーションに重要な応用がある。
しかし、現在のポーズ誘導ビデオ生成法は人間のポーズのみを入力として受け入れることに限られており、他の被験者のポーズに対しては一般化が不十分である。
この問題に対処するため,PoseAnythingを提案する。PoseAnythingは人間の文字と非人間の文字の両方を扱い,任意の骨格入力をサポートする,初めてのユニバーサルなポーズ誘導ビデオ生成フレームワークである。
動作中の整合性を維持するために,各対象を異なる部分に分割し,部分対応を確立し,フレーム間の相互対応を計算し,きめ細かい部分レベルの整合性を実現する部分認識型テンポラルコヒーレンスモジュールを導入する。
さらに、ポーズ誘導ビデオ生成において、被写体とカメラの動き制御情報をCFGの正負アンカーに別々に注入することにより、独立してカメラの動き制御を可能にする新しいガイダンス戦略である、被写体とカメラの動き分離CFGを提案する。
さらに,5万のポーズビデオペアを含む高品質な公開データセットであるXPoseと,アノテーションとフィルタリングのための自動パイプラインを提案する。
広汎な実験により、Pose-Anythingは、有効性と一般化の両方において最先端の手法を著しく上回っていることが示された。
関連論文リスト
- Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。