Fugu-MT 論文翻訳(概要): AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

論文の概要: AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

arxiv url: http://arxiv.org/abs/2602.20664v1
Date: Tue, 24 Feb 2026 08:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.6686
Title: AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?
Title（参考訳）: AnimeAgent: イメージ・トゥ・ビデオによるマルチエージェントはディズニーのストーリーテリングアーティスト?
Authors: Hailong Yan, Shice Liu, Tao Wang, Xiangtao Zhang, Yijie Zhong, Jinwei Chen, Le Zhang, Bo Li,
Abstract要約: AnimeAgentは、カスタムストーリーボード生成のためのイメージ・ツー・ビデオ(I2V)ベースのマルチエージェントフレームワークである。ディズニーの"Combination of Straight Ahead and Pose to Pose"ワークフローにインスパイアされたAnimeAgentは、一貫性と表現力を高める前にI2Vの暗黙の動作を活用する。実験では、AnimeAgentがSOTAのパフォーマンスを一貫性、迅速な忠実度、スタイリングで達成している。
参考スコア（独自算出の注目度）: 17.734200530216977
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Custom Storyboard Generation (CSG) aims to produce high-quality, multi-character consistent storytelling. Current approaches based on static diffusion models, whether used in a one-shot manner or within multi-agent frameworks, face three key limitations: (1) Static models lack dynamic expressiveness and often resort to "copy-paste" pattern. (2) One-shot inference cannot iteratively correct missing attributes or poor prompt adherence. (3) Multi-agents rely on non-robust evaluators, ill-suited for assessing stylized, non-realistic animation. To address these, we propose AnimeAgent, the first Image-to-Video (I2V)-based multi-agent framework for CSG. Inspired by Disney's "Combination of Straight Ahead and Pose to Pose" workflow, AnimeAgent leverages I2V's implicit motion prior to enhance consistency and expressiveness, while a mixed subjective-objective reviewer enables reliable iterative refinement. We also collect a human-annotated CSG benchmark with ground-truth. Experiments show AnimeAgent achieves SOTA performance in consistency, prompt fidelity, and stylization.
Abstract（参考訳）: カスタムストーリーボード生成(CSG)は、高品質でマルチキャラクタの一貫性のあるストーリーテリングを実現することを目的としている。静的拡散モデルに基づく現在のアプローチでは、ワンショットで使われるか、マルチエージェントフレームワーク内で使用されるかは、3つの重要な制限に直面している。 2 ワンショット推論は、欠落した属性を反復的に補正することができない。 (3)マルチエージェントは,非現実的アニメーションの評価に不適な非ロマンティック評価器に頼っている。そこで我々は,CSGのための最初のイメージ・ツー・ビデオ(I2V)ベースのマルチエージェントフレームワークであるAnimeAgentを提案する。ディズニーの "Combination of Straight Ahead and Pose to Pose" ワークフローにインスパイアされたAnimeAgentは、一貫性と表現性を高めるためにI2Vの暗黙の動作を活用する一方で、混合主観的オブジェクトレビュアーは信頼できる反復的洗練を可能にする。また,人間による注釈付きCSGベンチマークも収集する。実験では、AnimeAgentがSOTAのパフォーマンスを一貫性、迅速な忠実度、スタイリングで達成している。

関連論文リスト

DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning [24.808926786222376]
本研究では,DreamActor-M2を提案する。DreamActor-M2は,動作条件をコンテキスト内学習問題として再定義する汎用アニメーションフレームワークである。まず、参照の出現と動きの手がかりを統一された潜在空間に融合させることにより、入力モダリティギャップを橋渡しする。次に、擬似的クロスアイデンティティトレーニングペアをキュレートする自己ブートストラップデータ合成パイプラインを導入する。
論文参考訳（メタデータ） (2026-01-29T13:43:17Z)
AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation [50.63646953706144]
AniMakerは、効率的なマルチ候補クリップ生成とストーリーテリング対応クリップ選択を可能にするフレームワークである。 AniMakerは、VBenchや提案したAniEvalフレームワークなど、一般的なメトリクスによって測定される、優れた品質を実現しています。
論文参考訳（メタデータ） (2025-06-12T10:06:21Z)
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [52.655400705690155]
AnimeShooterは参照誘導型マルチショットアニメーションデータセットである。ストーリーレベルのアノテーションは、ストーリーライン、キーシーン、参照イメージを持つメインキャラクタプロファイルを含む、物語の概要を提供する。ショットレベルのアノテーションはストーリーを連続したショットに分解し、それぞれにシーン、キャラクター、物語と記述的なビジュアルキャプションが注釈付けされている。別個のサブセットであるAnimeShooter-audioは、ショットごとに同期されたオーディオトラックと、オーディオ記述と音源を提供する。
論文参考訳（メタデータ） (2025-06-03T17:55:18Z)
A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models [2.919625687404969]
本稿では,大規模言語モデル,視覚生成,テキストを音声合成に統合することにより,チンカングオペラの終末制作を自動化する新しいマルチエージェントフレームワークを提案する。 Dou E Yuanのケーススタディでは、スクリプトの忠実度が3.8、ビジュアルコヒーレンスが3.5、音声の精度が3.6、シングルエージェントベースラインが0.3ポイント向上した。
論文参考訳（メタデータ） (2025-04-22T03:14:29Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。 VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文参考訳（メタデータ） (2025-03-19T11:59:14Z)
AniDoc: Animation Creation Made Easier [54.97341104616779]
我々の研究は、ますます強力なAIの可能性を生かして、2Dアニメーションを制作する際のコスト削減に重点を置いている。 AniDocはビデオラインアートのカラー化ツールとして登場し、自動的にスケッチシーケンスをカラーアニメーションに変換する。本モデルでは,一致マッチングを明示的なガイダンスとして活用し,基準文字と各ラインアートフレームの変動に強いロバスト性を与える。
論文参考訳（メタデータ） (2024-12-18T18:59:59Z)
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。 StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文参考訳（メタデータ） (2024-11-07T18:00:33Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。