論文の概要: Every picture tells a story: Image-grounded controllable stylistic story
generation
- arxiv url: http://arxiv.org/abs/2209.01638v1
- Date: Sun, 4 Sep 2022 15:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:32:26.802721
- Title: Every picture tells a story: Image-grounded controllable stylistic story
generation
- Title(参考訳): すべての絵が物語を語る: イメージグラウンド制御可能なスタイリスティックなストーリー生成
- Authors: Holy Lovenia, Bryan Wilie, Romain Barraud, Samuel Cahyawijaya, Willy
Chung, Pascale Fung
- Abstract要約: 本稿では,Platform-and-Play Story Teller (PPST)を導入し,画像からストーリー生成を改善する。
我々は,ノンスタイル,ロマンススタイル,アクションスタイルのPPSTアプローチを用いて,イメージ・ツー・ストーリー生成実験を行う。
その結果,PPSTはストーリーコヒーレンスを向上し,画像とストーリーの関連性も向上することがわかった。
- 参考スコア(独自算出の注目度): 39.468435527606985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating a short story out of an image is arduous. Unlike image captioning,
story generation from an image poses multiple challenges: preserving the story
coherence, appropriately assessing the quality of the story, steering the
generated story into a certain style, and addressing the scarcity of
image-story pair reference datasets limiting supervision during training. In
this work, we introduce Plug-and-Play Story Teller (PPST) and improve
image-to-story generation by: 1) alleviating the data scarcity problem by
incorporating large pre-trained models, namely CLIP and GPT-2, to facilitate a
fluent image-to-text generation with minimal supervision, and 2) enabling a
more style-relevant generation by incorporating stylistic adapters to control
the story generation. We conduct image-to-story generation experiments with
non-styled, romance-styled, and action-styled PPST approaches and compare our
generated stories with those of previous work over three aspects, i.e., story
coherence, image-story relevance, and style fitness, using both automatic and
human evaluation. The results show that PPST improves story coherence and has
better image-story relevance, but has yet to be adequately stylistic.
- Abstract(参考訳): イメージから短いストーリーを生成するのは大変なことです。
画像キャプションとは異なり、画像からのストーリー生成は、ストーリーの一貫性を保ち、ストーリーの品質を適切に評価し、生成されたストーリーを特定のスタイルに操り、トレーニング中の監督を制限するイメージとストーリーのペアリファレンスデータセットの不足に対処するという、複数の課題を提起する。
本稿では, PPST (Plug-and-Play Story Teller) を導入し, イメージ・ツー・ストーリー生成を改善する。
1)クリップとgpt-2という大規模事前学習モデルの導入によるデータ不足問題の軽減と、最小限の監督による流麗な画像からテキストへの生成の促進
2)スタイリスティックなアダプタを組み込んでストーリー生成を制御することで,よりスタイルに関連した生成を可能にする。
我々は,非スタイル,ロマンススタイル,アクションスタイルのppstアプローチを用いて,画像からストーリーへの生成実験を行い,自動評価とヒューマン評価の両方を用いて,これまでの3つの側面,すなわちストーリーコヒーレンス,イメージストーリーの関連性,スタイル適合性の比較を行った。
その結果,PPSTはストーリーコヒーレンスを向上し,画像とストーリーの関連性も向上することがわかった。
関連論文リスト
- StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences [67.61940880927708]
画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
論文 参考訳(メタデータ) (2023-01-20T13:38:24Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Stylized Story Generation with Style-Guided Planning [38.791298336259146]
そこで本稿では,先行する文脈を条件として,新たなタスク,スタイル化されたストーリージェネレーション,すなわちスペクティフィドスタイルでストーリーを生成することを提案する。
我々のモデルは、ROCStoriesデータセットに基づいて、エモオプション駆動またはイベント駆動のストーリーを制御できる。
論文 参考訳(メタデータ) (2021-05-18T15:55:38Z) - Consistency and Coherency Enhanced Story Generation [35.08911595854691]
生成したストーリーの一貫性と一貫性を高めるための2段階生成フレームワークを提案する。
第1段は物語の筋書きや出来事を描いた物語の輪郭を整理し、第2段は完全な物語へと輪郭を広げることである。
さらに、コア参照監視信号は、コア参照エラーを低減し、コア参照一貫性を向上させるために組み込まれている。
論文 参考訳(メタデータ) (2020-10-17T16:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。