論文の概要: StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation
- arxiv url: http://arxiv.org/abs/2209.06192v1
- Date: Tue, 13 Sep 2022 17:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:05:47.721356
- Title: StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation
- Title(参考訳): StoryDALL-E: 事前学習したテキスト・画像変換器をストーリー継続に適用する
- Authors: Adyasha Maharana, Darryl Hannan, and Mohit Bansal
- Abstract要約: 生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
- 参考スコア(独自算出の注目度): 76.44802273236081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image synthesis have led to large pretrained
transformers with excellent capabilities to generate visualizations from a
given text. However, these models are ill-suited for specialized tasks like
story visualization, which requires an agent to produce a sequence of images
given a corresponding sequence of captions, forming a narrative. Moreover, we
find that the story visualization task fails to accommodate generalization to
unseen plots and characters in new narratives. Hence, we first propose the task
of story continuation, where the generated visual story is conditioned on a
source image, allowing for better generalization to narratives with new
characters. Then, we enhance or 'retro-fit' the pretrained text-to-image
synthesis models with task-specific modules for (a) sequential image generation
and (b) copying relevant elements from an initial frame. Then, we explore
full-model finetuning, as well as prompt-based tuning for parameter-efficient
adaptation, of the pre-trained model. We evaluate our approach StoryDALL-E on
two existing datasets, PororoSV and FlintstonesSV, and introduce a new dataset
DiDeMoSV collected from a video-captioning dataset. We also develop a model
StoryGANc based on Generative Adversarial Networks (GAN) for story
continuation, and compare it with the StoryDALL-E model to demonstrate the
advantages of our approach. We show that our retro-fitting approach outperforms
GAN-based models for story continuation and facilitates copying of visual
elements from the source image, thereby improving continuity in the generated
visual story. Finally, our analysis suggests that pretrained transformers
struggle to comprehend narratives containing several characters. Overall, our
work demonstrates that pretrained text-to-image synthesis models can be adapted
for complex and low-resource tasks like story continuation.
- Abstract(参考訳): テキストから画像への合成の最近の進歩は、与えられたテキストから可視化を生成できる優れた能力を持つ、大きな事前学習されたトランスフォーマーを生み出した。
しかし、これらのモデルはストーリーの可視化のような専門的なタスクには不向きであり、エージェントは対応するキャプションのシーケンスを与えられた画像のシーケンスを作成し、物語を形成する必要がある。
さらに,物語の可視化作業は,新たな物語における未知のプロットやキャラクタへの一般化に適さないことがわかった。
そこで我々はまず,生成した視覚的ストーリをソースイメージに条件付けすることで,新たなキャラクタを持つ物語をより一般化する,ストーリー継続作業を提案する。
次に,事前学習されたテキストから画像への合成モデルをタスク固有のモジュールで拡張または「適合」する。
(a)シーケンシャルな画像生成と
(b)初期フレームから関連要素をコピーすること。
そこで,本研究では,事前学習モデルのパラメータ効率適応のためのプロンプトベースチューニングとともに,フルモデルファインタニングについて検討する。
我々は,既存の2つのデータセットである PororoSV と FlintstonesSV に対して StoryDALL-E のアプローチを評価し,ビデオキャプションデータセットから収集した新しいデータセット DiDeMoSV を導入する。
また、ストーリー継続のためのGAN(Generative Adversarial Networks)に基づくStoryGANcモデルも開発し、StoryDALL-Eモデルと比較して、我々のアプローチの利点を実証する。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からのビジュアル要素のコピーを容易にし, 生成したビジュアルストーリーの連続性を向上させる。
最後に,事前学習したトランスフォーマーは,複数の文字を含む物語を理解するのに苦労していることを示す。
全体としては、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを示す。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Let Storytelling Tell Vivid Stories: An Expressive and Fluent Multimodal
Storyteller [21.953766228135827]
我々はLLaMSと呼ばれる新しいパイプラインを提案し、マルチモーダルな人間レベルのストーリーを生成する。
まず、実写コンテンツ表現を強化するために、シーケンスデータ自動強調戦略を用いる。
次に,SQ-Adatpterモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T04:07:00Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Improved Visual Story Generation with Adaptive Context Modeling [39.04249009170821]
本稿では,適応型コンテキストモデリングによる先行システムを改善するための簡易な手法を提案する。
我々は, PororoSV と FlintstonesSV のデータセットを用いたモデルの評価を行い,本手法が物語の可視化と継続シナリオの両面において最先端の FID スコアを達成することを示す。
論文 参考訳(メタデータ) (2023-05-26T10:43:42Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。