論文の概要: One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfe
- arxiv url: http://arxiv.org/abs/2511.22940v1
- Date: Fri, 28 Nov 2025 07:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.804549
- Title: One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfe
- Title(参考訳): ワンツーオールアニメーション:アライメントフリーキャラクタアニメーションと画像詩変換
- Authors: Shijun Shi, Jing Xu, Zhihang Li, Chunli Peng, Xiaoda Yang, Lijing Lu, Kai Hu, Jiangning Zhang,
- Abstract要約: 高忠実度キャラクタアニメーションと画像ポーズ転送のためのフレームワークであるOne-to-All Animationを提案する。
空間的に不整合な参照を扱うために,自己監督型アウトペイントタスクとしてトレーニングを再構成する。
また、包括的アイデンティティ特徴抽出のための参照抽出器を設計する。
- 参考スコア(独自算出の注目度): 36.26551019954542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have greatly improved pose-driven character animation. However, existing methods are limited to spatially aligned reference-pose pairs with matched skeletal structures. Handling reference-pose misalignment remains unsolved. To address this, we present One-to-All Animation, a unified framework for high-fidelity character animation and image pose transfer for references with arbitrary layouts. First, to handle spatially misaligned reference, we reformulate training as a self-supervised outpainting task that transforms diverse-layout reference into a unified occluded-input format. Second, to process partially visible reference, we design a reference extractor for comprehensive identity feature extraction. Further, we integrate hybrid reference fusion attention to handle varying resolutions and dynamic sequence lengths. Finally, from the perspective of generation quality, we introduce identity-robust pose control that decouples appearance from skeletal structure to mitigate pose overfitting, and a token replace strategy for coherent long-video generation. Extensive experiments show that our method outperforms existing approaches. The code and model will be available at https://github.com/ssj9596/One-to-All-Animation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、ポーズ駆動キャラクタアニメーションを大幅に改善した。
しかし、既存の手法は、一致した骨格構造を持つ空間的に整列した参照配置対に限られている。
参照目的のミスアライメントの処理は未解決のままである。
そこで本研究では,高忠実度キャラクタアニメーションと画像ポーズ転送のための統一フレームワークであるOne-to-All Animationを提案する。
まず、空間的に不整合な参照を処理するために、多彩なレイアウト参照を統一された隠蔽入力形式に変換する自己教師付きアウトペイントタスクとしてトレーニングを再構築する。
第2に、部分可視参照を処理するために、包括的識別特徴抽出のための参照抽出器を設計する。
さらに、様々な解像度と動的シーケンス長を扱うために、ハイブリッド参照融合アテンションを統合する。
最後に、生成品質の観点から、骨格構造から外観を分離して過剰なポーズを緩和するアイデンティティ・ロバスト・ポーズ制御と、コヒーレントな長ビデオ生成のためのトークン置換戦略を導入する。
大規模な実験により,本手法は既存手法より優れていることが示された。
コードとモデルはhttps://github.com/ssj9596/One-to-All-Animationで公開される。
関連論文リスト
- StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation [98.10527466949338]
人間の画像アニメーションの現在の拡散モデルは、アイデンティティの整合性を維持するのに苦労することが多い。
学習可能なポーズアライメントを備えた最初のID保存ビデオ拡散フレームワークであるStableAnimator++を紹介する。
本稿では,StableAnimator++が参照画像とポーズシーケンスに条件付き高品質な動画を後処理なしで生成する方法を示す。
論文 参考訳(メタデータ) (2025-07-20T17:59:26Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に切り離すことを目的としている。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。