論文の概要: Sakuga-42M Dataset: Scaling Up Cartoon Research
- arxiv url: http://arxiv.org/abs/2405.07425v1
- Date: Mon, 13 May 2024 01:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.325265
- Title: Sakuga-42M Dataset: Scaling Up Cartoon Research
- Title(参考訳): Sakuga-42Mデータセット:カートゥーン研究の規模拡大
- Authors: Zhenglin Pan, Yu Zhu, Yuxuan Mu,
- Abstract要約: 作画42Mは、多種多様の芸術様式・地域・年号を網羅した4400万文を包括的意味論で構成している。
我々のモチベーションは、漫画研究に大規模スケーリングを導入し、将来の漫画応用における一般化と堅牢性を促進することである。
- 参考スコア(独自算出の注目度): 4.676528353567339
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand-drawn cartoon animation employs sketches and flat-color segments to create the illusion of motion. While recent advancements like CLIP, SVD, and Sora show impressive results in understanding and generating natural video by scaling large models with extensive datasets, they are not as effective for cartoons. Through our empirical experiments, we argue that this ineffectiveness stems from a notable bias in hand-drawn cartoons that diverges from the distribution of natural videos. Can we harness the success of the scaling paradigm to benefit cartoon research? Unfortunately, until now, there has not been a sizable cartoon dataset available for exploration. In this research, we propose the Sakuga-42M Dataset, the first large-scale cartoon animation dataset. Sakuga-42M comprises 42 million keyframes covering various artistic styles, regions, and years, with comprehensive semantic annotations including video-text description pairs, anime tags, content taxonomies, etc. We pioneer the benefits of such a large-scale cartoon dataset on comprehension and generation tasks by finetuning contemporary foundation models like Video CLIP, Video Mamba, and SVD, achieving outstanding performance on cartoon-related tasks. Our motivation is to introduce large-scaling to cartoon research and foster generalization and robustness in future cartoon applications. Dataset, Code, and Pretrained Models will be publicly available.
- Abstract(参考訳): 手描き漫画のアニメーションは、スケッチとフラットカラーのセグメントを使って、動きの錯覚を生み出している。
CLIP、SVD、Soraといった最近の進歩は、大規模なデータセットで大規模モデルをスケーリングすることで、自然ビデオの理解と生成において驚くべき結果を示しているが、漫画ではそれほど効果的ではない。
実験的な実験を通して、この非効率性は自然映像の配信から分岐する手描き漫画の顕著なバイアスに起因すると論じる。
スケーリングパラダイムの成功を利用して漫画研究に役立てることができるか?
残念ながら、これまで大規模なマンガのデータセットは公開されていない。
本研究では,最初の大規模アニメーションデータセットであるSakuga-42Mデータセットを提案する。
Sakuga-42Mは、さまざまな芸術様式、地域、年数をカバーする4400万のキーフレームで構成され、ビデオテキスト記述ペア、アニメタグ、コンテンツ分類など、包括的な意味アノテーションを備えている。
映像CLIP, Video Mamba, SVDなどの現代基盤モデルを微調整し, 漫画関連タスクにおいて優れたパフォーマンスを達成し, 理解と生成タスクに対する大規模な漫画データセットの利点を開拓した。
我々のモチベーションは、漫画研究に大規模スケーリングを導入し、将来の漫画応用における一般化と堅牢性を促進することである。
Dataset、Code、Pretrained Modelsが公開される。
関連論文リスト
- L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文 参考訳(メタデータ) (2024-06-14T17:51:18Z) - AnimateZoo: Zero-shot Video Generation of Cross-Species Animation via Subject Alignment [64.02822911038848]
動物アニメーションを作成するため, ゼロショット拡散に基づくビデオジェネレータAnimateZooを提案する。
AnimateZooで使われる主要なテクニックは、2つのステップを含む被写体アライメントです。
我々のモデルは、正確な動き、一貫した外観、高忠実度フレームを特徴とする映像を生成することができる。
論文 参考訳(メタデータ) (2024-04-07T12:57:41Z) - Instance-guided Cartoon Editing with a Large-scale Dataset [12.955181769243232]
本稿では,画像中の文字に対する高精度なセグメンテーションマスクを生成するインスタンス認識画像セグメンテーションモデルを提案する。
提案手法は,3D Ken Burns のパララックス効果,テキスト誘導の漫画スタイルの編集,イラストやマンガからの人形アニメーションなど,セグメンテーションに依存した漫画編集の応用を可能にする。
論文 参考訳(メタデータ) (2023-12-04T15:00:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Learning Data-Driven Vector-Quantized Degradation Model for Animation
Video Super-Resolution [59.71387128485845]
アニメーションビデオの特徴を探求し、より実用的なアニメーションVSRモデルのための実世界のアニメーションデータの豊富な事前情報を活用する。
本稿では,グローバルな構造から局所的な詳細を分解する,マルチスケールなベクトル量子化分解モデルを提案する。
先行データを抽出するために、リッチコンテンツリアルアニメーション低品質(RAL)ビデオデータセットを収集する。
論文 参考訳(メタデータ) (2023-03-17T08:11:14Z) - AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies [98.65469430034246]
既存の2次元漫画のデータセットは、単純なフレーム構成と単調な動きに悩まされている。
我々は,オープンソースの3D映画を2Dスタイルのフルシーンに変換することによって,新しい2Dアニメーション視覚対応データセットAnimeRunを提案する。
分析の結果,提案したデータセットは画像合成において実際のアニメに似るだけでなく,既存のデータセットと比較してよりリッチで複雑な動きパターンを持つことがわかった。
論文 参考訳(メタデータ) (2022-11-10T17:26:21Z) - AnimeCeleb: Large-Scale Animation CelebFaces Dataset via Controllable 3D
Synthetic Models [19.6347170450874]
制御可能な合成アニメーションモデルを用いて,大規模なアニメーションセロブフェイスデータセット(AnimeCeleb)を提案する。
データ生成プロセスを容易にするため,オープンな3Dソフトウェアに基づく半自動パイプラインを構築した。
これにより、多目的および多スタイルのアニメーションフェースとリッチアノテーションを備えた大規模なアニメーションフェースデータセットを構築することができる。
論文 参考訳(メタデータ) (2021-11-15T10:00:06Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。