論文の概要: ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
- arxiv url: http://arxiv.org/abs/2407.09774v3
- Date: Mon, 24 Feb 2025 14:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.402021
- Title: ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
- Title(参考訳): ContextualStory: 空間的拡張とストーリーラインコンテキストによる一貫性のあるビジュアルストーリーテリング
- Authors: Sixiao Zheng, Yanwei Fu,
- Abstract要約: ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 50.572907418430155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for visual storytelling. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduce a Storyline Contextualizer to enrich context in storyline embedding, and a StoryFlow Adapter to measure scene changes between frames for guiding the model. Extensive experiments on PororoSV and FlintstonesSV datasets demonstrate that ContextualStory significantly outperforms existing SOTA methods in both story visualization and continuation. Code is available at https://github.com/sixiaozheng/ContextualStory.
- Abstract(参考訳): ビジュアルストーリーテリングは、文字やシーンの一貫性を維持しながら、テキストストーリーラインからコヒーレントなフレームのシーケンスを生成する。
既存の自動回帰手法は、以前のフレーム-文ペアに依存しており、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。
このような問題に対処するために、コヒーレントなストーリーフレームを生成し、ビジュアルストーリーテリングのためのフレームを拡張するように設計された新しいフレームワークであるContextualStoryを提案する。
ContextualStoryは、空間的に拡張された時間的注意を利用して、空間的および時間的依存を捉え、重要な文字の動きを効果的に扱う。
さらに、ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテキストライザと、モデルを導くためのフレーム間のシーン変化を測定するストーリーフローアダプタを導入します。
PororoSVとFlintstonesSVデータセットの大規模な実験により、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドを大幅に上回っていることが示された。
コードはhttps://github.com/sixiaozheng/ContextualStoryで入手できる。
関連論文リスト
- VinaBench: Benchmark for Faithful and Consistent Visual Narratives [29.111073358773698]
忠実なビジュアルな物語を生み出すという課題に対処する新しいベンチマークであるVinaBenchを提案する。
以上の結果から,VinaBenchの知識制約による学習は,生成した視覚的物語の忠実性と結束性を効果的に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-26T18:00:03Z) - Story-Adapter: A Training-free Iterative Framework for Long Story Visualization [14.303607837426126]
本稿では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。
私たちのフレームワークの中心は、トレーニング不要なグローバル参照のクロスアテンションモジュールで、前回のイテレーションから生成されたすべてのイメージを集約します。
実験は、きめ細かい相互作用のためのセマンティック一貫性と生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。
論文 参考訳(メタデータ) (2024-10-08T17:59:30Z) - Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - Causal-Story: Local Causal Attention Utilizing Parameter-Efficient
Tuning For Visual Story Synthesis [12.766712398098646]
本稿では,従来のキャプション,フレーム,現在のキャプションの因果関係を考察したCausal-Storyを提案する。
我々はPororoSVとFlintstonesSVのデータセットでモデルを評価し、最先端のFIDスコアを得た。
論文 参考訳(メタデータ) (2023-09-18T08:06:06Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。