論文の概要: AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation
- arxiv url: http://arxiv.org/abs/2506.10540v2
- Date: Thu, 02 Oct 2025 06:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.07432
- Title: AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation
- Title(参考訳): AniMaker:MCTS駆動のクリップ生成によるマルチエージェントアニメーションストーリーテリング
- Authors: Haoyuan Shi, Yunxin Li, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang,
- Abstract要約: AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
- 参考スコア(独自算出の注目度): 50.63646953706144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advancements in video generation models, generating coherent storytelling videos that span multiple scenes and characters remains challenging. Current methods often rigidly convert pre-generated keyframes into fixed-length clips, resulting in disjointed narratives and pacing issues. Furthermore, the inherent instability of video generation models means that even a single low-quality clip can significantly degrade the entire output animation's logical coherence and visual continuity. To overcome these obstacles, we introduce AniMaker, a multi-agent framework enabling efficient multi-candidate clip generation and storytelling-aware clip selection, thus creating globally consistent and story-coherent animation solely from text input. The framework is structured around specialized agents, including the Director Agent for storyboard generation, the Photography Agent for video clip generation, the Reviewer Agent for evaluation, and the Post-Production Agent for editing and voiceover. Central to AniMaker's approach are two key technical components: MCTS-Gen in Photography Agent, an efficient Monte Carlo Tree Search (MCTS)-inspired strategy that intelligently navigates the candidate space to generate high-potential clips while optimizing resource usage; and AniEval in Reviewer Agent, the first framework specifically designed for multi-shot animation evaluation, which assesses critical aspects such as story-level consistency, action completion, and animation-specific features by considering each clip in the context of its preceding and succeeding clips. Experiments demonstrate that AniMaker achieves superior quality as measured by popular metrics including VBench and our proposed AniEval framework, while significantly improving the efficiency of multi-candidate generation, pushing AI-generated storytelling animation closer to production standards.
- Abstract(参考訳): ビデオ生成モデルの急速な進歩にもかかわらず、複数のシーンやキャラクターにまたがるコヒーレントなストーリーテリングビデオを生成することは依然として困難である。
現行の手法では、事前に生成したキーフレームを固定長のクリップに変換することが多い。
さらに、ビデオ生成モデルの本質的な不安定さは、単一の低品質クリップでさえ、出力アニメーション全体の論理的コヒーレンスと視覚的連続性を著しく低下させることができることを意味する。
これらの障害を克服するために、AniMakerというマルチエージェントフレームワークを導入し、効率の良いマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にし、テキスト入力のみからグローバルに一貫したストーリーコヒーレントなアニメーションを作成する。
このフレームワークは、ストーリーボード生成のためのディレクターエージェント、ビデオクリップ生成のための写真エージェント、評価のためのレビューエージェント、編集とボイスオーバーのためのポストプロダクションエージェントなど、特殊なエージェントを中心に構成されている。
AniMakerのアプローチの中心となるのは、MCTS-Gen in Photography Agent、効率的なモンテカルロ木探索(MCTS)にインスパイアされた戦略で、リソース使用を最適化しながら、強力なクリップを生成するために候補空間をインテリジェントにナビゲートする。
AniMakerは、VBenchや提案したAniEvalフレームワークなどの一般的な指標で測定されるように、優れた品質を実現するとともに、多候補生成の効率を大幅に向上し、AI生成したストーリーテリングアニメーションをプロダクション標準に近づけることが実証された。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives [97.61653035827919]
HoloCineは、最初のショットから最後のショットまでのグローバルな一貫性を確保するために、全体を生成するモデルです。
本アーキテクチャは,テキストプロンプトを特定のショットにローカライズするウィンドウクロスアテンション機構により,正確なディレクトリ制御を実現する。
我々の研究は、クリップ合成から自動映画化への重要な転換であり、エンド・ツー・エンドの映画制作を目に見える未来にしている。
論文 参考訳(メタデータ) (2025-10-23T17:59:59Z) - MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [24.22367257991941]
MAViSは、長時間のビデオストーリーテリングを支援するために設計されたマルチエージェント協調フレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
簡単なアイデア記述だけで、MAViSは、高品質で完全なロングシーケンス動画を効率よく生成することで、様々なビジュアルなストーリーテリングと、シーケンシャルなビデオ生成のための創造的な方向を素早く探索することができる。
論文 参考訳(メタデータ) (2025-08-11T21:42:41Z) - AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。
ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。
ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。
別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文 参考訳(メタデータ) (2025-06-03T17:55:18Z) - MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio [48.820808691986805]
MM-StoryAgentは、洗練されたプロット、ロール一貫性のあるイメージ、マルチチャンネルオーディオを備えた没入型ナレーションビデオストーリーブックを作成する。
このフレームワークは、多段階の書き込みパイプラインを通じてストーリーの魅力を高める。
MM-StoryAgentは、さらなる開発のための柔軟なオープンソースプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-03-07T08:53:10Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Regenerating Arbitrary Video Sequences with Distillation Path-Finding [6.687073794084539]
本稿では,開始フレーム上でユーザの好みに応じて新しいシーケンスを生成するインタラクティブなフレームワークを提案する。
これを効果的に実現するために、まず、提案ネットワークであるRCFNetを用いて、与えられたビデオのフレームセットの特徴相関を学習する。
そこで我々は,ソースビデオの動作方向の知識を定式化し,スムーズかつ妥当なシーケンスを推定する新しいパスフィニングアルゴリズム,SDPFを開発した。
論文 参考訳(メタデータ) (2023-11-13T09:05:30Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。