論文の概要: TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention
- arxiv url: http://arxiv.org/abs/2407.09774v1
- Date: Sat, 13 Jul 2024 05:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:58:50.128750
- Title: TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention
- Title(参考訳): TemporalStory:空間的テンポラルアテンションを用いたストーリービジュアライゼーションにおける一貫性の強化
- Authors: Sixiao Zheng, Yanwei Fu,
- Abstract要約: 本稿では,画像の依存関係に対する空間的注意に基づくテキスト・画像生成ツールであるTemporalStoryを紹介する。
また、他の文からの情報を現在の文の埋め込みに組み込むことのできるテキストアダプタも導入する。
私たちのTemporalStoryは、ストーリービジュアライゼーションとストーリー継続タスクの両方において、これまでの最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 50.572907418430155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Story visualization presents a challenging task in text-to-image generation, requiring not only the rendering of visual details from text prompt but also ensuring consistency across images. Recently, most approaches address inconsistency problem using an auto-regressive manner conditioned on previous image-sentence pairs. However, they overlook the fact that story context is dispersed across all sentences. The auto-regressive approach fails to encode information from susequent image-sentence pairs, thus unable to capture the entirety of the story context. To address this, we introduce TemporalStory, leveraging Spatial-Temporal attention to model complex spatial and temporal dependencies in images, enabling the generation of coherent images based on a given storyline. In order to better understand the storyline context, we introduce a text adapter capable of integrating information from other sentences into the embedding of the current sentence. Additionally, to utilize scene changes between story images as guidance for the model, we propose the StoryFlow Adapter to measure the degree of change between images. Through extensive experiments on two popular benchmarks, PororoSV and FlintstonesSV, our TemporalStory outperforms the previous state-of-the-art in both story visualization and story continuation tasks.
- Abstract(参考訳): ストーリービジュアライゼーションは、テキストプロンプトから視覚的な詳細をレンダリングするだけでなく、画像間の一貫性を確保する必要がある。
近年,従来のイメージ・文対に条件付き自己回帰的手法を用いて不整合問題に対処するアプローチがほとんどである。
しかし、ストーリーコンテキストがすべての文に分散しているという事実を見落としている。
自動回帰アプローチでは、偽画像と文のペアから情報をエンコードすることができないため、ストーリーコンテキストの全体像をキャプチャできない。
そこで本研究では,画像の複雑な空間的・時間的依存関係をモデル化するために,空間的・時間的注意を生かしたTemporalStoryを導入し,与えられたストーリーラインに基づいて一貫性のある画像を生成する。
ストーリーラインの文脈をよりよく理解するために,他の文からの情報を現在の文の埋め込みに組み込むことのできるテキストアダプタを導入する。
また,このモデルのためのガイダンスとして,ストーリー画像間のシーン変化を利用するために,ストーリーフロー適応器を提案し,画像間の変化の度合いを計測する。
PororoSVとFlintstonesSVという2つの人気のあるベンチマークに関する広範な実験を通じて、私たちのTemporalStoryは、ストーリーの可視化とストーリー継続のタスクにおいて、過去の最先端よりも優れています。
関連論文リスト
- Generating Long-form Story Using Dynamic Hierarchical Outlining with Memory-Enhancement [29.435378306293583]
本稿では,DOMEと命名されたメモリ・エンハンスメントを用いた動的階層的アウトラインニングを提案し,一貫性のある内容とプロットを持つ長大なストーリーを生成する。
時間的知識グラフに基づくメモリ・エンハンスメント・モジュール(MEM)を導入し、生成されたコンテンツを保存・アクセスする。
実験により、DOMEは最先端の手法と比較して、生成した長いストーリーの流布、コヒーレンス、および全体的な品質を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-18T07:50:54Z) - Story-Adapter: A Training-free Iterative Framework for Long Story Visualization [14.303607837426126]
本稿では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。
私たちのフレームワークの中心は、トレーニング不要なグローバル参照のクロスアテンションモジュールで、前回のイテレーションから生成されたすべてのイメージを集約します。
実験は、きめ細かい相互作用のためのセマンティック一貫性と生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。
論文 参考訳(メタデータ) (2024-10-08T17:59:30Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis [12.766712398098646]
本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-09-18T08:06:06Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。