論文の概要: Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences
- arxiv url: http://arxiv.org/abs/2301.08571v1
- Date: Fri, 20 Jan 2023 13:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 13:10:52.233802
- Title: Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences
- Title(参考訳): 視覚的書き起こしプロンプ:キュレートされた画像シーケンスによる文字周囲のストーリー生成
- Authors: Xudong Hong, Asad Sayeed, Khushboo Mehra, Vera Demberg, Bernt Schiele
- Abstract要約: 画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
- 参考スコア(独自算出の注目度): 67.61940880927708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current work on image-based story generation suffers from the fact that the
existing image sequence collections do not have coherent plots behind them. We
improve visual story generation by producing a new image-grounded dataset,
Visual Writing Prompts (VWP). VWP contains almost 2K selected sequences of
movie shots, each including 5-10 images. The image sequences are aligned with a
total of 12K stories which were collected via crowdsourcing given the image
sequences and a set of grounded characters from the corresponding image
sequence. Our new image sequence collection and filtering process has allowed
us to obtain stories that are more coherent and have more narrativity compared
to previous work. We also propose a character-based story generation model
driven by coherence as a strong baseline. Evaluations show that our generated
stories are more coherent, visually grounded, and have more narrativity than
stories generated with the current state-of-the-art model.
- Abstract(参考訳): 画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPは5-10枚の画像を含む約2Kの映画シーンを含む。
画像シーケンスは、画像シーケンスと対応する画像シーケンスからの接地文字の集合とからクラウドソーシングにより収集された合計12kのストーリーにアライメントされる。
新たな画像シーケンス収集とフィルタリングのプロセスにより,従来よりも一貫性があり,ナラティビティも高いストーリーを得られるようになりました。
また,コヒーレンスをベースラインとするキャラクターベースのストーリー生成モデルを提案する。
評価の結果、我々の生成したストーリーは、現在の最先端モデルで生成されたストーリーよりも一貫性があり、視覚的基盤があり、よりナラティビティが高いことが示された。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。