論文の概要: MagicAnime: A Hierarchically Annotated, Multimodal and Multitasking Dataset with Benchmarks for Cartoon Animation Generation
- arxiv url: http://arxiv.org/abs/2507.20368v1
- Date: Sun, 27 Jul 2025 17:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.477458
- Title: MagicAnime: A Hierarchically Annotated, Multimodal and Multitasking Dataset with Benchmarks for Cartoon Animation Generation
- Title(参考訳): MagicAnime: カートゥーンアニメーション生成のためのベンチマークを備えた階層的アノテーション付きマルチモーダルマルチタスクデータセット
- Authors: Shuolin Xu, Bingyuan Wang, Zeyu Cai, Fangteng Fu, Yue Ma, Tongyi Lee, Hongchuan Yu, Zeyu Wang,
- Abstract要約: マルチモーダルコントロールは、非人間的なキャラクターの複雑さ、スタイリスティックに多様な動き、きめ細かい感情のために困難である。
複数のビデオ生成タスクをサポートするために設計された大規模で階層的な注釈付きマルチモーダルデータセットであるMagicAnimeデータセットを提案する。
上記のタスクにおける様々なメソッドの比較をサポートするために,MagicAnime-Benchと呼ばれるマルチモーダルアニメーションのアニメーションベンチマークを構築した。
- 参考スコア(独自算出の注目度): 2.700983545680755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality cartoon animations multimodal control is challenging due to the complexity of non-human characters, stylistically diverse motions and fine-grained emotions. There is a huge domain gap between real-world videos and cartoon animation, as cartoon animation is usually abstract and has exaggerated motion. Meanwhile, public multimodal cartoon data are extremely scarce due to the difficulty of large-scale automatic annotation processes compared with real-life scenarios. To bridge this gap, We propose the MagicAnime dataset, a large-scale, hierarchically annotated, and multimodal dataset designed to support multiple video generation tasks, along with the benchmarks it includes. Containing 400k video clips for image-to-video generation, 50k pairs of video clips and keypoints for whole-body annotation, 12k pairs of video clips for video-to-video face animation, and 2.9k pairs of video and audio clips for audio-driven face animation. Meanwhile, we also build a set of multi-modal cartoon animation benchmarks, called MagicAnime-Bench, to support the comparisons of different methods in the tasks above. Comprehensive experiments on four tasks, including video-driven face animation, audio-driven face animation, image-to-video animation, and pose-driven character animation, validate its effectiveness in supporting high-fidelity, fine-grained, and controllable generation.
- Abstract(参考訳): 高品質のアニメーションを生成する マルチモーダル制御は、非人間のキャラクターの複雑さ、スタイリスティックな多様な動き、きめ細かい感情のために困難である。
漫画のアニメーションは通常抽象的で、大げさな動きを持つため、現実世界のビデオと漫画のアニメーションの間には大きな領域ギャップがある。
一方、実際のシナリオと比較して大規模な自動アノテーション処理が困難であるため、公開マルチモーダル漫画データは極めて少ない。
このギャップを埋めるため、複数のビデオ生成タスクをサポートするために設計された大規模で階層的なマルチモーダルデータセットであるMagicAnimeデータセットと、それを含むベンチマークを提案する。
イメージ・ツー・ビデオ生成用の400kビデオクリップ、全身アノテーション用の50kビデオクリップとキーポイント、ビデオ・ツー・ビデオ・フェイスアニメーション用の1kビデオクリップ、2.9kビデオ・オーディオ・クリップを含む。
また、上のタスクで異なるメソッドの比較をサポートするために、MagicAnime-Benchと呼ばれるマルチモーダルアニメーションのアニメーションベンチマークも構築しました。
映像駆動の顔アニメーション、オーディオ駆動の顔アニメーション、映像と映像のアニメーション、ポーズ駆動のキャラクターアニメーションを含む4つのタスクに関する総合的な実験は、高忠実さ、きめ細かな粒度、制御可能な生成をサポートする上での有効性を検証する。
関連論文リスト
- AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。
入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:00:22Z) - Learning to Animate Images from A Few Videos to Portray Delicate Human Actions [80.61838364885482]
ビデオ生成モデルは、人間の繊細なアクションを描写するビデオに静的イメージをアニメーション化するのに依然として苦労している。
本稿では,映像をアニメーション化し,微妙な人間の行動を表現するための学習課題について,少数のビデオを用いて検討する。
本研究では、他の動画の動画特徴とフレーム間の対応を利用して、モデルに映像の再構成を強制することで、一般化可能な動きパターンを学習するFLASHを提案する。
論文 参考訳(メタデータ) (2025-03-01T01:09:45Z) - AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era [20.670217061810614]
本稿では,アニメーション映像生成のための総合システムAniSoraを提案する。
1000万以上の高品質なデータでデータ処理パイプラインがサポートしています。
また,様々なアニメーションビデオの評価ベンチマークを収集し,特にアニメーションビデオ生成のための指標を開発した。
論文 参考訳(メタデータ) (2024-12-13T16:24:58Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.65469430034246]
既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。
我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。
分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
論文 参考訳(メタデータ) (2022-11-10T17:26:21Z) - SketchBetween: Video-to-Video Synthesis for Sprite Animation via
Sketches [0.9645196221785693]
2Dアニメーションは、キャラクター、エフェクト、バックグラウンドアートに使用されるゲーム開発において一般的な要素である。
アニメーションの自動化アプローチは存在するが、アニメーションを念頭に置いて設計されている。
本稿では,アニメーションの標準的なワークフローにより密着した問題定式化を提案する。
論文 参考訳(メタデータ) (2022-09-01T02:43:19Z) - CAST: Character labeling in Animation using Self-supervision by Tracking [6.57697269659615]
カートゥーンやアニメーションのドメインビデオは、実写の画像やビデオとは大きく異なる特徴を持っている。
現在のコンピュータビジョンとディープラーニングソリューションは、自然画像で訓練されたため、アニメーションコンテンツでは失敗することが多い。
本稿では,特定のアニメーションコンテンツに適した意味表現を洗練させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-19T14:21:43Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。