論文の概要: Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
- arxiv url: http://arxiv.org/abs/2408.09787v1
- Date: Mon, 19 Aug 2024 08:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:04:37.444706
- Title: Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation
- Title(参考訳): Anim-Director:制御可能なアニメーション映像生成のための大規模マルチモーダルモデル駆動エージェント
- Authors: Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang,
- Abstract要約: Anim-Directorは、自律的なアニメーション作成エージェントである。
LMMと生成AIツールの高度な理解と推論能力を活用する。
プロセス全体は、手作業による介入なしに、特に自律的である。
- 参考スコア(独自算出の注目度): 36.46957675498949
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional animation generation methods depend on training generative models with human-labelled data, entailing a sophisticated multi-stage pipeline that demands substantial human effort and incurs high training costs. Due to limited prompting plans, these methods typically produce brief, information-poor, and context-incoherent animations. To overcome these limitations and automate the animation process, we pioneer the introduction of large multimodal models (LMMs) as the core processor to build an autonomous animation-making agent, named Anim-Director. This agent mainly harnesses the advanced understanding and reasoning capabilities of LMMs and generative AI tools to create animated videos from concise narratives or simple instructions. Specifically, it operates in three main stages: Firstly, the Anim-Director generates a coherent storyline from user inputs, followed by a detailed director's script that encompasses settings of character profiles and interior/exterior descriptions, and context-coherent scene descriptions that include appearing characters, interiors or exteriors, and scene events. Secondly, we employ LMMs with the image generation tool to produce visual images of settings and scenes. These images are designed to maintain visual consistency across different scenes using a visual-language prompting method that combines scene descriptions and images of the appearing character and setting. Thirdly, scene images serve as the foundation for producing animated videos, with LMMs generating prompts to guide this process. The whole process is notably autonomous without manual intervention, as the LMMs interact seamlessly with generative tools to generate prompts, evaluate visual quality, and select the best one to optimize the final output.
- Abstract(参考訳): 従来のアニメーション生成方法は、人間のラベル付きデータによる生成モデルのトレーニングに依存しており、かなりの人的努力を必要とし、高いトレーニングコストを発生させる洗練された多段階パイプラインを必要とする。
限定的なプロンプト計画のため、これらの手法は通常、簡潔で情報量が少ない、コンテキスト非一貫性なアニメーションを生成する。
これらの制限を克服し、アニメーションプロセスを自動化するために、Anim-Directorという自律的なアニメーション作成エージェントを構築するためのコアプロセッサとして、大規模なマルチモーダルモデル(LMM)を導入した。
このエージェントは、LMMと生成AIツールの高度な理解と推論能力を利用して、簡潔な物語や簡単な指示からアニメーションビデオを作成する。
第一に、Anim-Directorはユーザー入力からコヒーレントなストーリーラインを生成し、続いて、キャラクタープロファイルとインテリア/エクステリア記述の設定を含む詳細なディレクターのスクリプト、出現するキャラクター、インテリアまたはインテリア、シーンイベントを含むコンテキストコヒーレントなシーン記述を生成する。
第2に、設定やシーンの視覚画像を生成するために、画像生成ツールを用いたLMMを用いる。
これらの画像は、シーン記述と出現するキャラクタと設定のイメージを組み合わせた視覚言語プロンプト手法を用いて、異なるシーン間での視覚的一貫性を維持するように設計されている。
第3に、シーンイメージはアニメーションビデオを作成する基盤として機能し、LMMがこのプロセスを導くプロンプトを生成する。
LMMは生成ツールとシームレスに相互作用し、プロンプトを生成し、視覚的品質を評価し、最終的なアウトプットを最適化するのに最適なものを選択する。
関連論文リスト
- StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Compositional 3D-aware Video Generation with LLM Director [27.61057927559143]
本稿では,3次元表現において各概念を個別に生成し,大言語モデルと2次元拡散モデルから先行概念を合成する新しいパラダイムを提案する。
本手法では,テキストから高忠実度映像を生成でき,各概念を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-31T23:07:22Z) - Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation [4.147294190096431]
視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。
ビデオの自然言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを自動指揮する。
生成したビデオは、ビデオ品質と命令追従性能の5つの指標において、商用ビデオ生成モデルよりも優れた品質を示す。
論文 参考訳(メタデータ) (2024-08-19T23:31:02Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - Video-Driven Animation of Neural Head Avatars [3.5229503563299915]
高品質なニューラル3Dヘッドモデルの映像駆動型アニメーションに対する新しいアプローチを提案する。
本研究では、個人に依存しない表現特徴をパーソナライズされたアニメーションパラメータに翻訳できるLSTMベースのアニメーションネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T10:13:48Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。