論文の概要: Make-A-Story: Visual Memory Conditioned Consistent Story Generation
- arxiv url: http://arxiv.org/abs/2211.13319v3
- Date: Sat, 6 May 2023 02:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:59:40.194009
- Title: Make-A-Story: Visual Memory Conditioned Consistent Story Generation
- Title(参考訳): Make-A-Story: ビジュアルメモリ条件の一貫性のあるストーリー生成
- Authors: Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta
Mahajan, Leonid Sigal
- Abstract要約: 本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
- 参考スコア(独自算出の注目度): 57.691064030235985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: There has been a recent explosion of impressive generative models that can
produce high quality images (or videos) conditioned on text descriptions.
However, all such approaches rely on conditional sentences that contain
unambiguous descriptions of scenes and main actors in them. Therefore employing
such models for more complex task of story visualization, where naturally
references and co-references exist, and one requires to reason about when to
maintain consistency of actors and backgrounds across frames/scenes, and when
not to, based on story progression, remains a challenge. In this work, we
address the aforementioned challenges and propose a novel autoregressive
diffusion-based framework with a visual memory module that implicitly captures
the actor and background context across the generated frames.
Sentence-conditioned soft attention over the memories enables effective
reference resolution and learns to maintain scene and actor consistency when
needed. To validate the effectiveness of our approach, we extend the MUGEN
dataset and introduce additional characters, backgrounds and referencing in
multi-sentence storylines. Our experiments for story generation on the MUGEN,
the PororoSV and the FlintstonesSV dataset show that our method not only
outperforms prior state-of-the-art in generating frames with high visual
quality, which are consistent with the story, but also models appropriate
correspondences between the characters and the background.
- Abstract(参考訳): テキスト記述に条件付けされた高品質な画像(あるいはビデオ)を生成できる、印象的な生成モデルが近年爆発的に増えている。
しかし、これらのアプローチはすべて、シーンや主要役者の曖昧な記述を含む条件文に依存している。
したがって、自然な参照やコレファレンスが存在するストーリービジュアライゼーションのより複雑なタスクにそのようなモデルを採用するには、アクターと背景のフレーム/シーン間の一貫性をいつ維持するか、そしてストーリーの進行に基づいていなければいけないのかを判断する必要がある。
本稿では,上記の課題に対処し,生成されたフレーム間でアクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,新しい自己回帰拡散ベースのフレームワークを提案する。
記憶に対する文条件付きソフトアテンションは効果的な参照解決を可能にし、必要に応じてシーンとアクターの一貫性を維持することを学習する。
提案手法の有効性を検証するため,MUGENデータセットを拡張し,多文ストーリーラインに文字,背景,参照を追加する。
mugen, pororosv, flintstonessvデータセット上でのストーリー生成実験により,本手法は,ストーリーと整合する高い視覚品質のフレーム生成において,先行手法よりも優れるだけでなく,キャラクタと背景との適切な対応をモデル化することを示した。
関連論文リスト
- MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
既存の自動回帰手法は、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。
本研究では,コヒーレントなストーリーフレームの生成とストーリー継続のためのフレーム拡張を目的とした新しいフレームワークであるContextualStoryを提案する。
PororoSVとFlintstonesSVベンチマークの実験では、ContextualStoryはストーリービジュアライゼーションとストーリー継続の両方において既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis [12.766712398098646]
本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-09-18T08:06:06Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。