論文の概要: ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
- arxiv url: http://arxiv.org/abs/2407.09774v2
- Date: Wed, 21 Aug 2024 14:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:56:12.152930
- Title: ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
- Title(参考訳): ContextualStory: 空間的拡張とストーリーラインコンテキストによる一貫性のあるビジュアルストーリーテリング
- Authors: Sixiao Zheng, Yanwei Fu,
- Abstract要約: 既存の自動回帰手法は、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。
本研究では,コヒーレントなストーリーフレームの生成とストーリー継続のためのフレーム拡張を目的とした新しいフレームワークであるContextualStoryを提案する。
PororoSVとFlintstonesSVベンチマークの実験では、ContextualStoryはストーリービジュアライゼーションとストーリー継続の両方において既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 50.572907418430155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for story continuation. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduces a Storyline Contextualizer to enrich context in storyline embedding and a StoryFlow Adapter to measure scene changes between frames for guiding model. Extensive experiments on PororoSV and FlintstonesSV benchmarks demonstrate that ContextualStory significantly outperforms existing methods in both story visualization and story continuation.
- Abstract(参考訳): ビジュアルストーリーテリングは、文字やシーンの一貫性を維持しながら、テキストストーリーラインからコヒーレントなフレームのシーケンスを生成する。
既存の自動回帰手法は、以前のフレーム-文ペアに依存しており、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。
これらの問題に対処するために、コヒーレントなストーリーフレームを生成し、ストーリー継続のためにフレームを拡張するように設計された新しいフレームワークであるContextualStoryを提案する。
ContextualStoryは、空間的に拡張された時間的注意を利用して、空間的および時間的依存を捉え、重要な文字の動きを効果的に扱う。
さらに、ストーリーライン埋め込みにおけるコンテキストを豊かにするためのストーリーラインコンテクストライザと、モデルを導くためのフレーム間のシーン変化を測定するストーリーフローアダプタを導入しました。
PororoSVとFlintstonesSVベンチマークの大規模な実験は、ContextualStoryがストーリーの可視化とストーリー継続の両方において既存のメソッドを著しく上回っていることを示している。
関連論文リスト
- Story-Adapter: A Training-free Iterative Framework for Long Story Visualization [14.303607837426126]
本稿では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。
私たちのフレームワークの中心は、トレーニング不要なグローバル参照のクロスアテンションモジュールで、前回のイテレーションから生成されたすべてのイメージを集約します。
実験は、きめ細かい相互作用のためのセマンティック一貫性と生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。
論文 参考訳(メタデータ) (2024-10-08T17:59:30Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis [12.766712398098646]
本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-09-18T08:06:06Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。