論文の概要: FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
- arxiv url: http://arxiv.org/abs/2506.21272v2
- Date: Fri, 27 Jun 2025 01:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.361771
- Title: FairyGen: Storied Cartoon Video from a Single Child-Drawn Character
- Title(参考訳): FairyGen:シングルチャイルドドローキャラクタのカルトゥーンビデオ
- Authors: Jiayi Zheng, Xiaodong Cun,
- Abstract要約: 本研究では,一人の子どもの絵から物語駆動のマンガ映像を自動生成するFairyGenを提案する。
以前のストーリーテリング方法とは異なり、FairyGenはスタイル化された背景生成から文字モデリングを明示的に切り離している。
我々のシステムは、スタイリスティックに忠実で、物語的に構造化された自然運動のアニメーションを生成する。
- 参考スコア(独自算出の注目度): 15.701180508477679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose FairyGen, an automatic system for generating story-driven cartoon videos from a single child's drawing, while faithfully preserving its unique artistic style. Unlike previous storytelling methods that primarily focus on character consistency and basic motion, FairyGen explicitly disentangles character modeling from stylized background generation and incorporates cinematic shot design to support expressive and coherent storytelling. Given a single character sketch, we first employ an MLLM to generate a structured storyboard with shot-level descriptions that specify environment settings, character actions, and camera perspectives. To ensure visual consistency, we introduce a style propagation adapter that captures the character's visual style and applies it to the background, faithfully retaining the character's full visual identity while synthesizing style-consistent scenes. A shot design module further enhances visual diversity and cinematic quality through frame cropping and multi-view synthesis based on the storyboard. To animate the story, we reconstruct a 3D proxy of the character to derive physically plausible motion sequences, which are then used to fine-tune an MMDiT-based image-to-video diffusion model. We further propose a two-stage motion customization adapter: the first stage learns appearance features from temporally unordered frames, disentangling identity from motion; the second stage models temporal dynamics using a timestep-shift strategy with frozen identity weights. Once trained, FairyGen directly renders diverse and coherent video scenes aligned with the storyboard. Extensive experiments demonstrate that our system produces animations that are stylistically faithful, narratively structured natural motion, highlighting its potential for personalized and engaging story animation. The code will be available at https://github.com/GVCLab/FairyGen
- Abstract(参考訳): 本研究では,一人の子どもの絵から物語駆動のマンガ映像を自動生成するシステムであるFairyGenを提案する。
キャラクターの一貫性と基本的な動きに重点を置く従来のストーリーテリング法とは異なり、FairyGenはキャラクターモデリングをスタイリングされた背景生成から明確に切り離し、表現的で一貫性のあるストーリーテリングをサポートするためにシネマティック・ショットデザインを取り入れている。
まずMLLMを用いて、環境設定、キャラクタアクション、カメラパースペクティブを指定するショットレベルの記述を含む構造化されたストーリーボードを生成する。
視覚的整合性を確保するために、文字の視覚的スタイルをキャプチャし、それを背景に適用するスタイル伝搬アダプタを導入し、スタイル一貫性のあるシーンを合成しながら、文字の完全な視覚的アイデンティティを忠実に保持する。
ショットデザインモジュールは、ストーリーボードに基づくフレームトリミングと多視点合成により、視覚的多様性と撮影品質をさらに向上させる。
物語をアニメーションするために,キャラクターの3Dプロキシを再構成して物理的に可塑性な動き列を導出し,MMDiTに基づく画像と映像の拡散モデルを微調整する。
さらに,2段階の動作カスタマイズアダプタを提案する。第1段階は時間的無秩序なフレームから外観特徴を学習し,第2段階は時間的シフト戦略と凍結したアイデンティティ重みを用いた時間的ダイナミクスをモデル化する。
トレーニングが完了すると、FairyGenはストーリーボードに合わせた多彩で一貫性のあるビデオシーンを直接描画する。
大規模な実験により,本システムはスタイリスティックに忠実で,物語的に構造化された自然な動きを再現し,パーソナライズされ,魅力的なストーリーアニメーションの可能性を強調した。
コードはhttps://github.com/GVCLab/FairyGenで入手できる。
関連論文リスト
- AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [64.53681498600065]
ドリームダンス(DreamDance)は、安定的で一貫したキャラクタと、正確なカメラ軌跡を条件としたシーンの動きを生成できるアニメーションフレームワークである。
我々は、背景品質を高めつつ、動的キャラクタをシーンビデオに注入する、ポーズ対応ビデオ塗装モデルを訓練する。
論文 参考訳(メタデータ) (2025-05-30T15:54:34Z) - AniDoc: Animation Creation Made Easier [54.97341104616779]
我々の研究は、ますます強力なAIの可能性を生かして、2Dアニメーションを制作する際のコスト削減に重点を置いている。
AniDocはビデオラインアートのカラー化ツールとして登場し、自動的にスケッチシーケンスをカラーアニメーションに変換する。
本モデルでは,一致マッチングを明示的なガイダンスとして活用し,基準文字と各ラインアートフレームの変動に強いロバスト性を与える。
論文 参考訳(メタデータ) (2024-12-18T18:59:59Z) - FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [65.64014682930164]
スケッチアニメーションは、単純なフリップブックの落書きからプロのスタジオプロダクションまで、ビジュアルなストーリーテリングのための強力な媒体を提供する。
FlipSketchは、フリップブックアニメーションの魔法を復活させるシステムです。
論文 参考訳(メタデータ) (2024-11-16T14:53:03Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。