論文の概要: AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
- arxiv url: http://arxiv.org/abs/2506.03126v1
- Date: Tue, 03 Jun 2025 17:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.977444
- Title: AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation
- Title(参考訳): AnimeShooter: 参照誘導ビデオ生成のためのマルチショットアニメーションデータセット
- Authors: Lu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu,
- Abstract要約: AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
- 参考スコア(独自算出の注目度): 52.655400705690155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI-generated content (AIGC) have significantly accelerated animation production. To produce engaging animations, it is essential to generate coherent multi-shot video clips with narrative scripts and character references. However, existing public datasets primarily focus on real-world scenarios with global descriptions, and lack reference images for consistent character guidance. To bridge this gap, we present AnimeShooter, a reference-guided multi-shot animation dataset. AnimeShooter features comprehensive hierarchical annotations and strong visual consistency across shots through an automated pipeline. Story-level annotations provide an overview of the narrative, including the storyline, key scenes, and main character profiles with reference images, while shot-level annotations decompose the story into consecutive shots, each annotated with scene, characters, and both narrative and descriptive visual captions. Additionally, a dedicated subset, AnimeShooter-audio, offers synchronized audio tracks for each shot, along with audio descriptions and sound sources. To demonstrate the effectiveness of AnimeShooter and establish a baseline for the reference-guided multi-shot video generation task, we introduce AnimeShooterGen, which leverages Multimodal Large Language Models (MLLMs) and video diffusion models. The reference image and previously generated shots are first processed by MLLM to produce representations aware of both reference and context, which are then used as the condition for the diffusion model to decode the subsequent shot. Experimental results show that the model trained on AnimeShooter achieves superior cross-shot visual consistency and adherence to reference visual guidance, which highlight the value of our dataset for coherent animated video generation.
- Abstract(参考訳): AI生成コンテンツ(AIGC)の最近の進歩はアニメーション制作を著しく加速している。
エンゲージメントなアニメーションを作成するためには、物語の台詞や登場人物の参照を伴うコヒーレントなマルチショットビデオクリップを生成することが不可欠である。
しかし、既存の公開データセットは、主にグローバルな記述を伴う現実世界のシナリオに焦点を当て、一貫したキャラクタガイダンスのための参照イメージが欠如している。
このギャップを埋めるために、参照誘導マルチショットアニメーションデータセットであるAnimeShooterを提示する。
AnimeShooterは、包括的な階層的なアノテーションと、自動パイプラインによるショット間の強い視覚的一貫性を備えている。
ストーリーレベルのアノテーションはストーリーライン、キーシーン、メインキャラクタプロファイルの参照イメージを含む物語の概要を提供し、ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクタ、そして物語と記述的なビジュアルキャプションを付加する。
さらに、専用のサブセットであるAnimeShooter-audioは、各ショットのための同期オーディオトラックと、オーディオ記述と音源を提供する。
MLLM(Multimodal Large Language Models)とビデオ拡散モデルを利用するAnimeShooterGenについて,AnimeShooterの有効性を実証し,基準誘導型マルチショットビデオ生成タスクのベースラインを確立する。
参照画像と以前に生成されたショットはMLLMによって最初に処理され、参照とコンテキストの両方を意識した表現を生成し、拡散モデルの条件としてその後のショットをデコードする。
実験結果から,AnimeShooterでトレーニングしたモデルでは,画像の相互整合性が向上し,参照視覚誘導の順応性が向上し,コヒーレントなアニメーション映像生成のためのデータセットの価値が強調された。
関連論文リスト
- Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation [36.46957675498949]
Anim-Directorは、自律的なアニメーション作成エージェントである。
LMMと生成AIツールの高度な理解と推論能力を活用する。
プロセス全体は、手作業による介入なしに、特に自律的である。
論文 参考訳(メタデータ) (2024-08-19T08:27:31Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。