論文の概要: Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning
- arxiv url: http://arxiv.org/abs/2603.06688v1
- Date: Wed, 04 Mar 2026 08:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.799305
- Title: Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning
- Title(参考訳): ナラティブウィーバー:マルチモーダルコンディショニングによる制御可能なロングランジ視覚整合性を目指して
- Authors: Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu,
- Abstract要約: ナラティブウィーバー(Narrative Weaver)は、多モード制御可能、長距離、一貫したビジュアルコンテンツ生成の実現という、生成AIの根本的な課題に対処する新しいフレームワークである。
マルチモーダル大規模言語モデル (MLLM) を高レベルな物語計画用として, 動的メモリバンクを具備した, 視覚的ドリフトを防止した, きめ細かな制御モジュールを新たに開発した。
- 参考スコア(独自算出の注目度): 22.093402932660464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present "Narrative Weaver", a novel framework that addresses a fundamental challenge in generative AI: achieving multi-modal controllable, long-range, and consistent visual content generation. While existing models excel at generating high-fidelity short-form visual content, they struggle to maintain narrative coherence and visual consistency across extended sequences - a critical limitation for real-world applications such as filmmaking and e-commerce advertising. Narrative Weaver introduces the first holistic solution that seamlessly integrates three essential capabilities: fine-grained control, automatic narrative planning, and long-range coherence. Our architecture combines a Multimodal Large Language Model (MLLM) for high-level narrative planning with a novel fine-grained control module featuring a dynamic Memory Bank that prevents visual drift. To enable practical deployment, we develop a progressive, multi-stage training strategy that efficiently leverages existing pre-trained models, achieving state-of-the-art performance even with limited training data. Recognizing the absence of suitable evaluation benchmarks, we construct and release the E-commerce Advertising Video Storyboard Dataset (EAVSD) - the first comprehensive dataset for this task, containing over 330K high-quality images with rich narrative annotations. Through extensive experiments across three distinct scenarios (controllable multi-scene generation, autonomous storytelling, and e-commerce advertising), we demonstrate our method's superiority while opening new possibilities for AI-driven content creation.
- Abstract(参考訳): 我々は「Narrative Weaver」という、生成AIの根本的な課題に対処する新しいフレームワークを紹介します。
既存のモデルは、高忠実なショートフォームのビジュアルコンテンツを生成するのに優れていますが、ストーリーコヒーレンスと、拡張シーケンス間の視覚的一貫性を維持するのに苦労しています。
Narrative Weaverは,3つの重要な機能 – きめ細かいコントロール,自動ストーリ計画,長距離コヒーレンス – をシームレスに統合する,最初の包括的なソリューションだ。
マルチモーダル大規模言語モデル (MLLM) を高レベルな物語計画用として, 動的メモリバンクを具備した, 視覚的ドリフトを防止した, きめ細かな制御モジュールを新たに開発した。
実践的な展開を実現するため,既存の事前学習モデルを効果的に活用し,限られたトレーニングデータであっても最先端の性能を実現する,段階的かつ多段階的なトレーニング戦略を開発した。
適切な評価ベンチマークがないことを認識して、我々はEAVSD (E-Commerce Advertising Video Storyboard Dataset) を構築し、リリースする。
3つの異なるシナリオ(制御可能なマルチシーン生成、自律的なストーリーテリング、Eコマース広告)にわたる広範な実験を通じて、我々は、AI駆動コンテンツ作成の新しい可能性を開きながら、我々の方法の優位性を実証する。
関連論文リスト
- A Versatile Multimodal Agent for Multimedia Content Generation [66.86040734610073]
複雑なコンテンツ作成タスクの自動化を目的としたMultiMedia-Agentを提案する。
エージェントシステムには、データ生成パイプライン、コンテンツ作成のためのツールライブラリ、嗜好アライメントを評価するためのメトリクスセットが含まれている。
論文 参考訳(メタデータ) (2026-01-06T18:49:47Z) - DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation [29.691765692687756]
DreaMontageは任意のフレーム誘導生成用に設計された包括的なフレームワークである。
多様なユーザが提供するインプットから、シームレスで表現力豊かで長期にわたるワンショットビデオを合成することができる。
論文 参考訳(メタデータ) (2025-12-24T16:00:15Z) - OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory [47.073128448877775]
我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
論文 参考訳(メタデータ) (2025-12-08T18:32:24Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。