論文の概要: MultiAnimate: Pose-Guided Image Animation Made Extensible
- arxiv url: http://arxiv.org/abs/2602.21581v1
- Date: Wed, 25 Feb 2026 05:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.709474
- Title: MultiAnimate: Pose-Guided Image Animation Made Extensible
- Title(参考訳): マルチアニメート」の動画が公開
- Authors: Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu,
- Abstract要約: Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
映像生成のための現代拡散変換器上に構築されたマルチ文字画像アニメーションフレームワークを提案する。
提案手法は,既存の拡散ベースラインを超越したマルチキャラクタ画像アニメーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 44.163219649465866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-guided human image animation aims to synthesize realistic videos of a reference character driven by a sequence of poses. While diffusion-based methods have achieved remarkable success, most existing approaches are limited to single-character animation. We observe that naively extending these methods to multi-character scenarios often leads to identity confusion and implausible occlusions between characters. To address these challenges, in this paper, we propose an extensible multi-character image animation framework built upon modern Diffusion Transformers (DiTs) for video generation. At its core, our framework introduces two novel components-Identifier Assigner and Identifier Adapter - which collaboratively capture per-person positional cues and inter-person spatial relationships. This mask-driven scheme, along with a scalable training strategy, not only enhances flexibility but also enables generalization to scenarios with more characters than those seen during training. Remarkably, trained on only a two-character dataset, our model generalizes to multi-character animation while maintaining compatibility with single-character cases. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in multi-character image animation, surpassing existing diffusion-based baselines.
- Abstract(参考訳): Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
拡散に基づく手法は顕著に成功したが、既存のアプローチのほとんどはシングル文字アニメーションに限られている。
我々は,これらの手法を多文字シナリオに鼻で拡張することで,識別の混乱や文字間の不可解な隠蔽につながることが多いことを観察した。
これらの課題に対処するために,ビデオ生成のための現代拡散変換器(DiT)上に構築された拡張可能なマルチキャラクタ画像アニメーションフレームワークを提案する。
本フレームワークのコアとなるのは,2つの新しいコンポーネント (Identifier Assigner) と Identifier Adapter (Identifier Adapter) の導入である。
このマスク駆動型スキームは、スケーラブルなトレーニング戦略とともに、柔軟性を高めるだけでなく、トレーニング中に見られるものよりも多くの文字を持つシナリオへの一般化を可能にする。
特筆すべきは、2文字のデータセットのみに基づいてトレーニングされた我々のモデルは、単一文字のケースとの互換性を維持しながら、マルチ文字のアニメーションに一般化する。
広汎な実験により,既存の拡散ベースラインを越えながら,マルチキャラクタ画像アニメーションの最先端性能を実現することができた。
関連論文リスト
- One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer [36.26551019954542]
高忠実度キャラクタアニメーションと画像ポーズ転送のためのフレームワークであるOne-to-All Animationを提案する。
空間的に不整合な参照を扱うために,自己監督型アウトペイントタスクとしてトレーニングを再構成する。
また、包括的アイデンティティ特徴抽出のための参照抽出器を設計する。
論文 参考訳(メタデータ) (2025-11-28T07:30:10Z) - Wan-Animate: Unified Character Animation and Replacement with Holistic Replication [53.619006977292635]
文字アニメーションと置き換えのための統合フレームワークであるWan-Animateを紹介する。
映像中のキャラクタの表情や動きを正確に再現し、高忠実度キャラクタビデオを生成することにより、キャラクタをアニメーション化することができる。
アニメーションキャラクタをリファレンスビデオに統合して、元のキャラクタを置き換えることで、シーンのライティングと色調を再現することができる。
論文 参考訳(メタデータ) (2025-09-17T15:00:57Z) - Animate-X++: Universal Character Image Animation with Dynamic Backgrounds [32.04255747303296]
Animate-X++は、擬人化文字を含む様々な文字タイプ向けのDiTに基づく普遍的なアニメーションフレームワークである。
動作表現を強化するために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。
第2の課題として、アニメーションとTI2Vタスクを共同でトレーニングするマルチタスクトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-08-13T03:11:28Z) - FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers [10.4806619052953]
本稿では,高忠実かつ感情豊かなアニメーションを生成可能な拡散トランスフォーマーベースのフレームワークであるFantasyPortraitを提案する。
本手法では,暗黙の表現を利用した表情強化学習戦略を導入し,その特徴を認識できない顔のダイナミクスを捉える。
マルチキャラクタ制御のために、独立に調整された表現生成を保証するマスク付きクロスアテンション機構を設計する。
論文 参考訳(メタデータ) (2025-07-17T09:50:43Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。