論文の概要: Exploring the Frontiers of Animation Video Generation in the Sora Era: Method, Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2412.10255v1
- Date: Fri, 13 Dec 2024 16:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:04.426947
- Title: Exploring the Frontiers of Animation Video Generation in the Sora Era: Method, Dataset and Benchmark
- Title(参考訳): ソラ時代のアニメーション映像のフロンティアを探る:方法、データセット、ベンチマーク
- Authors: Yudong Jiang, Baohan Xu, Siqian Yang, Mingyu Yin, Jing Liu, Chao Xu, Siqi Wang, Yidi Wu, Bingwen Zhu, Jixuan Xu, Yue Zhang, Jinlong Hou, Huyang Sun,
- Abstract要約: 本稿では,アニメーション映像生成のための総合システムAniSoraを提案する。
1000万以上の高品質なデータでデータ処理パイプラインがサポートしています。
また,948種類のアニメーションビデオの評価ベンチマークを収集し,特にアニメーションビデオ生成のための指標を開発した。
- 参考スコア(独自算出の注目度): 20.028748368753348
- License:
- Abstract: Animation has gained significant interest in the recent film and TV industry. Despite the success of advanced video generation models like Sora, Kling, and CogVideoX in generating natural videos, they lack the same effectiveness in handling animation videos. Evaluating animation video generation is also a great challenge due to its unique artist styles, violating the laws of physics and exaggerated motions. In this paper, we present a comprehensive system, AniSora, designed for animation video generation, which includes a data processing pipeline, a controllable generation model, and an evaluation dataset. Supported by the data processing pipeline with over 10M high-quality data, the generation model incorporates a spatiotemporal mask module to facilitate key animation production functions such as image-to-video generation, frame interpolation, and localized image-guided animation. We also collect an evaluation benchmark of 948 various animation videos, the evaluation on VBench and human double-blind test demonstrates consistency in character and motion, achieving state-of-the-art results in animation video generation. %We also collect an evaluation benchmark of 948 various animation videos, with specifically developed metrics for animation video generation. Our model access API and evaluation benchmark will be publicly available.
- Abstract(参考訳): アニメーションは最近の映画やテレビ業界で大きな関心を集めている。
Sora、Kling、CogVideoXといった先進的なビデオ生成モデルが自然ビデオの生成で成功したにもかかわらず、アニメーションビデオを扱う上でも同様の効果が欠けている。
アニメーションビデオの生成を評価することは、そのユニークなアーティストのスタイルが、物理学の法則や誇張された動きに違反しているため、大きな課題である。
本稿では、データ処理パイプライン、制御可能な生成モデル、評価データセットを含むアニメーションビデオ生成用に設計された総合システムAniSoraを提案する。
データ処理パイプラインによって10万以上の高品質なデータによってサポートされ、生成モデルには時空間マスクモジュールが組み込まれ、画像間生成、フレーム補間、ローカライズされた画像誘導アニメーションといった重要なアニメーション生成機能を促進する。
また,948本のアニメーション映像の評価ベンチマーク,VBenchによる評価,および人間の二重盲検による人物と動きの整合性を検証し,アニメーション映像生成における最先端の成果を得た。
また,948種類のアニメーションビデオの評価ベンチマークを収集し,特にアニメーションビデオ生成のための指標を開発した。
モデルアクセスAPIと評価ベンチマークが公開されます。
関連論文リスト
- HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - Video-Driven Animation of Neural Head Avatars [3.5229503563299915]
高品質なニューラル3Dヘッドモデルの映像駆動型アニメーションに対する新しいアプローチを提案する。
本研究では、個人に依存しない表現特徴をパーソナライズされたアニメーションパラメータに翻訳できるLSTMベースのアニメーションネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T10:13:48Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。