論文の概要: StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion
- arxiv url: http://arxiv.org/abs/2404.05979v1
- Date: Tue, 9 Apr 2024 03:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 16:08:32.958845
- Title: StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion
- Title(参考訳): StoryImager: コヒーレントなストーリービジュアライゼーションとコンプリートのための統一的で効率的なフレームワーク
- Authors: Ming Tao, Bing-Kun Bao, Hao Tang, Yaowei Wang, Changsheng Xu,
- Abstract要約: ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
- 参考スコア(独自算出の注目度): 78.1014542102578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Story visualization aims to generate a series of realistic and coherent images based on a storyline. Current models adopt a frame-by-frame architecture by transforming the pre-trained text-to-image model into an auto-regressive manner. Although these models have shown notable progress, there are still three flaws. 1) The unidirectional generation of auto-regressive manner restricts the usability in many scenarios. 2) The additional introduced story history encoders bring an extremely high computational cost. 3) The story visualization and continuation models are trained and inferred independently, which is not user-friendly. To these ends, we propose a bidirectional, unified, and efficient framework, namely StoryImager. The StoryImager enhances the storyboard generative ability inherited from the pre-trained text-to-image model for a bidirectional generation. Specifically, we introduce a Target Frame Masking Strategy to extend and unify different story image generation tasks. Furthermore, we propose a Frame-Story Cross Attention Module that decomposes the cross attention for local fidelity and global coherence. Moreover, we design a Contextual Feature Extractor to extract contextual information from the whole storyline. The extensive experimental results demonstrate the excellent performance of our StoryImager. The code is available at https://github.com/tobran/StoryImager.
- Abstract(参考訳): ストーリービジュアライゼーションは、ストーリーラインに基づいて、現実的で一貫性のある一連の画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
これらのモデルは顕著な進歩を見せているが、まだ3つの欠点がある。
1) 自己回帰的手法の一方向生成は,多くのシナリオにおけるユーザビリティを制限している。
2)追加のストーリーヒストリーエンコーダでは,計算コストが非常に高い。
3) ストーリーの可視化と継続モデルは個別に訓練され,推測される。
これらの目的のために、双方向で統一的で効率的なフレームワーク、すなわちStoryImagerを提案する。
StoryImagerは、双方向生成のための事前訓練されたテキスト・ツー・イメージモデルから継承されたストーリーボード生成能力を向上する。
具体的には、異なるストーリー画像生成タスクを拡張し、統合するためのターゲットフレームマスキング戦略を導入する。
さらに,局所的忠実度とグローバルなコヒーレンスに対する横断的注意を分解するフレーム・ストリー・クロス・アテンション・モジュールを提案する。
さらに,ストーリーライン全体からコンテキスト情報を抽出するコンテキスト特徴エクストラクタを設計する。
大規模な実験結果から,StoryImagerの優れた性能が示された。
コードはhttps://github.com/tobran/StoryImager.comから入手できる。
関連論文リスト
- Story-Adapter: A Training-free Iterative Framework for Long Story Visualization [14.303607837426126]
本稿では,ストーリーアダプタ(Story-Adapter)と呼ばれる学習自由で計算効率の良いフレームワークを提案する。
私たちのフレームワークの中心は、トレーニング不要なグローバル参照のクロスアテンションモジュールで、前回のイテレーションから生成されたすべてのイメージを集約します。
実験は、きめ細かい相互作用のためのセマンティック一貫性と生成能力の両方を改善する上で、ストーリー・アダプタの優位性を検証する。
論文 参考訳(メタデータ) (2024-10-08T17:59:30Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - PlotThread: Creating Expressive Storyline Visualizations using
Reinforcement Learning [27.129882090324422]
本稿では,デザイン空間を効率的に探索し,最適なストーリーラインを生成するAIエージェントを訓練するための強化学習フレームワークを提案する。
このフレームワークをベースとしたPlotThreadは、フレキシブルなインタラクションのセットを統合し、ストーリーラインの視覚化を簡単にカスタマイズできるオーサリングツールである。
論文 参考訳(メタデータ) (2020-09-01T06:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。