論文の概要: One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer
- arxiv url: http://arxiv.org/abs/2511.22940v2
- Date: Mon, 01 Dec 2025 03:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.439271
- Title: One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer
- Title(参考訳): ワンツーオールアニメーション:アライメントフリーキャラクタアニメーションと画像ポス転送
- Authors: Shijun Shi, Jing Xu, Zhihang Li, Chunli Peng, Xiaoda Yang, Lijing Lu, Kai Hu, Jiangning Zhang,
- Abstract要約: 高忠実度キャラクタアニメーションと画像ポーズ転送のためのフレームワークであるOne-to-All Animationを提案する。
空間的に不整合な参照を扱うために,自己監督型アウトペイントタスクとしてトレーニングを再構成する。
また、包括的アイデンティティ特徴抽出のための参照抽出器を設計する。
- 参考スコア(独自算出の注目度): 36.26551019954542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have greatly improved pose-driven character animation. However, existing methods are limited to spatially aligned reference-pose pairs with matched skeletal structures. Handling reference-pose misalignment remains unsolved. To address this, we present One-to-All Animation, a unified framework for high-fidelity character animation and image pose transfer for references with arbitrary layouts. First, to handle spatially misaligned reference, we reformulate training as a self-supervised outpainting task that transforms diverse-layout reference into a unified occluded-input format. Second, to process partially visible reference, we design a reference extractor for comprehensive identity feature extraction. Further, we integrate hybrid reference fusion attention to handle varying resolutions and dynamic sequence lengths. Finally, from the perspective of generation quality, we introduce identity-robust pose control that decouples appearance from skeletal structure to mitigate pose overfitting, and a token replace strategy for coherent long-video generation. Extensive experiments show that our method outperforms existing approaches. The code and model are available at https://github.com/ssj9596/One-to-All-Animation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、ポーズ駆動キャラクタアニメーションを大幅に改善した。
しかし、既存の手法は、一致した骨格構造を持つ空間的に整列した参照配置対に限られている。
参照目的のミスアライメントの処理は未解決のままである。
そこで本研究では,高忠実度キャラクタアニメーションと画像ポーズ転送のための統一フレームワークであるOne-to-All Animationを提案する。
まず、空間的に不整合な参照を処理するために、多彩なレイアウト参照を統一された隠蔽入力形式に変換する自己教師付きアウトペイントタスクとしてトレーニングを再構築する。
第2に、部分可視参照を処理するために、包括的識別特徴抽出のための参照抽出器を設計する。
さらに、様々な解像度と動的シーケンス長を扱うために、ハイブリッド参照融合アテンションを統合する。
最後に、生成品質の観点から、骨格構造から外観を分離して過剰なポーズを緩和するアイデンティティ・ロバスト・ポーズ制御と、コヒーレントな長ビデオ生成のためのトークン置換戦略を導入する。
大規模な実験により,本手法は既存手法より優れていることが示された。
コードとモデルはhttps://github.com/ssj9596/One-to-All-Animationで公開されている。
関連論文リスト
- MultiAnimate: Pose-Guided Image Animation Made Extensible [44.163219649465866]
Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
映像生成のための現代拡散変換器上に構築されたマルチ文字画像アニメーションフレームワークを提案する。
提案手法は,既存の拡散ベースラインを超越したマルチキャラクタ画像アニメーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-25T05:06:58Z) - CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation [95.46061771820412]
CoDanceはUnbind-Rebindフレームワークで、任意の被写体数、型、空間構成のアニメーションを単一のポーズシーケンスで指定できる。
そこで,テキストプロンプトからのセマンティックガイダンスと被写体マスクからの空間ガイダンスを利用して,学習した動作を意図した文字に指示するRebindモジュールを考案した。
CoDanceBenchと既存のデータセットの実験は、CoDanceがSOTAのパフォーマンスを達成し、多様な対象と空間的レイアウトにわたって顕著な一般化を示すことを示している。
論文 参考訳(メタデータ) (2026-01-16T08:53:09Z) - StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation [98.10527466949338]
人間の画像アニメーションの現在の拡散モデルは、アイデンティティの整合性を維持するのに苦労することが多い。
学習可能なポーズアライメントを備えた最初のID保存ビデオ拡散フレームワークであるStableAnimator++を紹介する。
本稿では,StableAnimator++が参照画像とポーズシーケンスに条件付き高品質な動画を後処理なしで生成する方法を示す。
論文 参考訳(メタデータ) (2025-07-20T17:59:26Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に切り離すことを目的としている。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。