論文の概要: AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation
- arxiv url: http://arxiv.org/abs/2506.10540v1
- Date: Thu, 12 Jun 2025 10:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.681096
- Title: AniMaker: Automated Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation
- Title(参考訳): AniMaker: MCTS駆動のクリップ生成によるマルチエージェントアニメーションストーリーテリングの自動化
- Authors: Haoyuan Shi, Yunxin Li, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang,
- Abstract要約: AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
- 参考スコア(独自算出の注目度): 46.838692817107116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advancements in video generation models, generating coherent storytelling videos that span multiple scenes and characters remains challenging. Current methods often rigidly convert pre-generated keyframes into fixed-length clips, resulting in disjointed narratives and pacing issues. Furthermore, the inherent instability of video generation models means that even a single low-quality clip can significantly degrade the entire output animation's logical coherence and visual continuity. To overcome these obstacles, we introduce AniMaker, a multi-agent framework enabling efficient multi-candidate clip generation and storytelling-aware clip selection, thus creating globally consistent and story-coherent animation solely from text input. The framework is structured around specialized agents, including the Director Agent for storyboard generation, the Photography Agent for video clip generation, the Reviewer Agent for evaluation, and the Post-Production Agent for editing and voiceover. Central to AniMaker's approach are two key technical components: MCTS-Gen in Photography Agent, an efficient Monte Carlo Tree Search (MCTS)-inspired strategy that intelligently navigates the candidate space to generate high-potential clips while optimizing resource usage; and AniEval in Reviewer Agent, the first framework specifically designed for multi-shot animation evaluation, which assesses critical aspects such as story-level consistency, action completion, and animation-specific features by considering each clip in the context of its preceding and succeeding clips. Experiments demonstrate that AniMaker achieves superior quality as measured by popular metrics including VBench and our proposed AniEval framework, while significantly improving the efficiency of multi-candidate generation, pushing AI-generated storytelling animation closer to production standards.
- Abstract(参考訳): ビデオ生成モデルの急速な進歩にもかかわらず、複数のシーンやキャラクターにまたがるコヒーレントなストーリーテリングビデオを生成することは依然として困難である。
現行の手法では、事前に生成したキーフレームを固定長のクリップに変換することが多い。
さらに、ビデオ生成モデルの本質的な不安定さは、単一の低品質クリップでさえ、出力アニメーション全体の論理的コヒーレンスと視覚的連続性を著しく低下させることができることを意味する。
これらの障害を克服するために、AniMakerというマルチエージェントフレームワークを導入し、効率の良いマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にし、テキスト入力のみからグローバルに一貫したストーリーコヒーレントなアニメーションを作成する。
このフレームワークは、ストーリーボード生成のためのディレクターエージェント、ビデオクリップ生成のための写真エージェント、評価のためのレビューエージェント、編集とボイスオーバーのためのポストプロダクションエージェントなど、特殊なエージェントを中心に構成されている。
AniMakerのアプローチの中心となるのは、MCTS-Gen in Photography Agent、効率的なモンテカルロ木探索(MCTS)にインスパイアされた戦略で、リソース使用を最適化しながら、強力なクリップを生成するために候補空間をインテリジェントにナビゲートする。
AniMakerは、VBenchや提案したAniEvalフレームワークなどの一般的な指標で測定されるように、優れた品質を実現するとともに、多候補生成の効率を大幅に向上し、AI生成したストーリーテリングアニメーションをプロダクション標準に近づけることが実証された。
関連論文リスト
- AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio [48.820808691986805]
MM-StoryAgentは、洗練されたプロット、ロール一貫性のあるイメージ、マルチチャンネルオーディオを備えた没入型ナレーションビデオストーリーブックを作成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-03-07T08:53:10Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。