論文の概要: MultiAnimate: Pose-Guided Image Animation Made Extensible
- arxiv url: http://arxiv.org/abs/2602.21581v1
- Date: Wed, 25 Feb 2026 05:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.709474
- Title: MultiAnimate: Pose-Guided Image Animation Made Extensible
- Title(参考訳): マルチアニメート」の動画が公開
- Authors: Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu,
- Abstract要約: Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
映像生成のための現代拡散変換器上に構築されたマルチ文字画像アニメーションフレームワークを提案する。
提案手法は,既存の拡散ベースラインを超越したマルチキャラクタ画像アニメーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 44.163219649465866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-guided human image animation aims to synthesize realistic videos of a reference character driven by a sequence of poses. While diffusion-based methods have achieved remarkable success, most existing approaches are limited to single-character animation. We observe that naively extending these methods to multi-character scenarios often leads to identity confusion and implausible occlusions between characters. To address these challenges, in this paper, we propose an extensible multi-character image animation framework built upon modern Diffusion Transformers (DiTs) for video generation. At its core, our framework introduces two novel components-Identifier Assigner and Identifier Adapter - which collaboratively capture per-person positional cues and inter-person spatial relationships. This mask-driven scheme, along with a scalable training strategy, not only enhances flexibility but also enables generalization to scenarios with more characters than those seen during training. Remarkably, trained on only a two-character dataset, our model generalizes to multi-character animation while maintaining compatibility with single-character cases. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in multi-character image animation, surpassing existing diffusion-based baselines.
- Abstract(参考訳): Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
拡散に基づく手法は顕著に成功したが、既存のアプローチのほとんどはシングル文字アニメーションに限られている。
我々は,これらの手法を多文字シナリオに鼻で拡張することで,識別の混乱や文字間の不可解な隠蔽につながることが多いことを観察した。
これらの課題に対処するために,ビデオ生成のための現代拡散変換器(DiT)上に構築された拡張可能なマルチキャラクタ画像アニメーションフレームワークを提案する。
本フレームワークのコアとなるのは,2つの新しいコンポーネント (Identifier Assigner) と Identifier Adapter (Identifier Adapter) の導入である。
このマスク駆動型スキームは、スケーラブルなトレーニング戦略とともに、柔軟性を高めるだけでなく、トレーニング中に見られるものよりも多くの文字を持つシナリオへの一般化を可能にする。
特筆すべきは、2文字のデータセットのみに基づいてトレーニングされた我々のモデルは、単一文字のケースとの互換性を維持しながら、マルチ文字のアニメーションに一般化する。
広汎な実験により,既存の拡散ベースラインを越えながら,マルチキャラクタ画像アニメーションの最先端性能を実現することができた。
関連論文リスト
- Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。