論文の概要: AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?
- arxiv url: http://arxiv.org/abs/2602.20664v1
- Date: Tue, 24 Feb 2026 08:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.6686
- Title: AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?
- Title(参考訳): AnimeAgent: イメージ・トゥ・ビデオによるマルチエージェントはディズニーのストーリーテリングアーティスト?
- Authors: Hailong Yan, Shice Liu, Tao Wang, Xiangtao Zhang, Yijie Zhong, Jinwei Chen, Le Zhang, Bo Li,
- Abstract要約: AnimeAgentは、カスタムストーリーボード生成のためのイメージ・ツー・ビデオ(I2V)ベースのマルチエージェントフレームワークである。
ディズニーの"Combination of Straight Ahead and Pose to Pose"ワークフローにインスパイアされたAnimeAgentは、一貫性と表現力を高める前にI2Vの暗黙の動作を活用する。
実験では、AnimeAgentがSOTAのパフォーマンスを一貫性、迅速な忠実度、スタイリングで達成している。
- 参考スコア(独自算出の注目度): 17.734200530216977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Custom Storyboard Generation (CSG) aims to produce high-quality, multi-character consistent storytelling. Current approaches based on static diffusion models, whether used in a one-shot manner or within multi-agent frameworks, face three key limitations: (1) Static models lack dynamic expressiveness and often resort to "copy-paste" pattern. (2) One-shot inference cannot iteratively correct missing attributes or poor prompt adherence. (3) Multi-agents rely on non-robust evaluators, ill-suited for assessing stylized, non-realistic animation. To address these, we propose AnimeAgent, the first Image-to-Video (I2V)-based multi-agent framework for CSG. Inspired by Disney's "Combination of Straight Ahead and Pose to Pose" workflow, AnimeAgent leverages I2V's implicit motion prior to enhance consistency and expressiveness, while a mixed subjective-objective reviewer enables reliable iterative refinement. We also collect a human-annotated CSG benchmark with ground-truth. Experiments show AnimeAgent achieves SOTA performance in consistency, prompt fidelity, and stylization.
- Abstract(参考訳): カスタムストーリーボード生成(CSG)は、高品質でマルチキャラクタの一貫性のあるストーリーテリングを実現することを目的としている。
静的拡散モデルに基づく現在のアプローチでは、ワンショットで使われるか、マルチエージェントフレームワーク内で使用されるかは、3つの重要な制限に直面している。
2 ワンショット推論は、欠落した属性を反復的に補正することができない。
(3)マルチエージェントは,非現実的アニメーションの評価に不適な非ロマンティック評価器に頼っている。
そこで我々は,CSGのための最初のイメージ・ツー・ビデオ(I2V)ベースのマルチエージェントフレームワークであるAnimeAgentを提案する。
ディズニーの "Combination of Straight Ahead and Pose to Pose" ワークフローにインスパイアされたAnimeAgentは、一貫性と表現性を高めるためにI2Vの暗黙の動作を活用する一方で、混合主観的オブジェクトレビュアーは信頼できる反復的洗練を可能にする。
また,人間による注釈付きCSGベンチマークも収集する。
実験では、AnimeAgentがSOTAのパフォーマンスを一貫性、迅速な忠実度、スタイリングで達成している。
関連論文リスト
- AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。
AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文 参考訳(メタデータ) (2025-06-12T10:06:21Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。