論文の概要: DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion
- arxiv url: http://arxiv.org/abs/2407.12899v1
- Date: Wed, 17 Jul 2024 17:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:43:08.279569
- Title: DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion
- Title(参考訳): DreamStory: LLM-Guided Multi-Subject Consistent Diffusionによるオープンドメインストーリーの可視化
- Authors: Huiguo He, Huan Yang, Zixi Tuo, Yuan Zhou, Qiuyue Wang, Yuhang Zhang, Zeyu Liu, Wenhao Huang, Hongyang Chao, Jian Yin,
- Abstract要約: 自動オープンドメインストーリー可視化フレームワークDreamStoryを提案する。
DreamStory は(1) ストーリーディレクターとしての LLM と (2) 革新的多目的一貫した拡散モデル (MSD) から構成される。
MSDには、Masked Mutual Self-Attention (MMSA)とMasked Mutual Cross-Attention (MMCA)モジュールが含まれる。
- 参考スコア(独自算出の注目度): 28.61450171549731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Story visualization aims to create visually compelling images or videos corresponding to textual narratives. Despite recent advances in diffusion models yielding promising results, existing methods still struggle to create a coherent sequence of subject-consistent frames based solely on a story. To this end, we propose DreamStory, an automatic open-domain story visualization framework by leveraging the LLMs and a novel multi-subject consistent diffusion model. DreamStory consists of (1) an LLM acting as a story director and (2) an innovative Multi-Subject consistent Diffusion model (MSD) for generating consistent multi-subject across the images. First, DreamStory employs the LLM to generate descriptive prompts for subjects and scenes aligned with the story, annotating each scene's subjects for subsequent subject-consistent generation. Second, DreamStory utilizes these detailed subject descriptions to create portraits of the subjects, with these portraits and their corresponding textual information serving as multimodal anchors (guidance). Finally, the MSD uses these multimodal anchors to generate story scenes with consistent multi-subject. Specifically, the MSD includes Masked Mutual Self-Attention (MMSA) and Masked Mutual Cross-Attention (MMCA) modules. MMSA and MMCA modules ensure appearance and semantic consistency with reference images and text, respectively. Both modules employ masking mechanisms to prevent subject blending. To validate our approach and promote progress in story visualization, we established a benchmark, DS-500, which can assess the overall performance of the story visualization framework, subject-identification accuracy, and the consistency of the generation model. Extensive experiments validate the effectiveness of DreamStory in both subjective and objective evaluations. Please visit our project homepage at https://dream-xyz.github.io/dreamstory.
- Abstract(参考訳): ストーリービジュアライゼーションは、テキストの物語に対応する視覚的に魅力的な画像やビデオを作成することを目的としている。
近年の拡散モデルの発展は有望な結果をもたらすが、既存の手法は物語のみに基づく主観一貫性のあるフレームのコヒーレントなシーケンスを作るのに苦慮している。
この目的のために,LLMと新しい多目的一貫した拡散モデルを活用することで,自動オープンドメインストーリー可視化フレームワークDreamStoryを提案する。
DreamStory は(1) ストーリーディレクターとして機能する LLM と (2) 画像間で一貫したマルチオブジェクトを生成するための革新的なマルチオブジェクト一貫した拡散モデル (MSD) から構成される。
まず、DreamStory は LLM を用いて、ストーリーに沿った主題やシーンの描写的なプロンプトを生成し、各シーンの主題を次の主題一貫性世代に注釈付けする。
第二に、DreamStoryは、これらの詳細な主題の記述を利用して、被験者の肖像画を作成し、これらの肖像画とその対応するテキスト情報がマルチモーダルアンカー(ガイダンス)として機能する。
最後に、MSDはこれらのマルチモーダルアンカーを使用して、一貫したマルチオブジェクトでストーリーシーンを生成する。
特に、MSDには、Masked Mutual Self-Attention (MMSA)とMasked Mutual Cross-Attention (MMCA)モジュールが含まれる。
MMSAモジュールとMMCAモジュールは、それぞれ参照画像とテキストとの外観と意味の整合性を保証する。
どちらのモジュールも被写体ブレンディングを防ぐためにマスキング機構を採用している。
提案手法を検証し,ストーリービジュアライゼーションの進展を促進するために,ストーリービジュアライゼーションフレームワークの全体的な性能,主観的識別精度,生成モデルの整合性を評価するベンチマークDS-500を構築した。
広範囲な実験により、主観的評価と客観的評価の両方においてDreamStoryの有効性が検証された。
プロジェクトのホームページはhttps://dream-xyz.github.io/dreamstory.comにある。
関連論文リスト
- Compositional 3D-aware Video Generation with LLM Director [27.61057927559143]
本稿では,3次元表現において各概念を個別に生成し,大言語モデルと2次元拡散モデルから先行概念を合成する新しいパラダイムを提案する。
本手法では,テキストから高忠実度映像を生成でき,各概念を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-31T23:07:22Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - DreamLLM: Synergistic Multimodal Comprehension and Creation [58.08565432353053]
DreamLLMはマルチモーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークである
DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
論文 参考訳(メタデータ) (2023-09-20T17:58:05Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。