論文の概要: Visual Storytelling with Question-Answer Plans
- arxiv url: http://arxiv.org/abs/2310.05295v2
- Date: Tue, 17 Oct 2023 22:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:08:47.794141
- Title: Visual Storytelling with Question-Answer Plans
- Title(参考訳): 質問応答プランによるビジュアルストーリーテリング
- Authors: Danyang Liu, Mirella Lapata, Frank Keller
- Abstract要約: 本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
- 参考スコア(独自算出の注目度): 70.89011289754863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual storytelling aims to generate compelling narratives from image
sequences. Existing models often focus on enhancing the representation of the
image sequence, e.g., with external knowledge sources or advanced graph
structures. Despite recent progress, the stories are often repetitive,
illogical, and lacking in detail. To mitigate these issues, we present a novel
framework which integrates visual representations with pretrained language
models and planning. Our model translates the image sequence into a visual
prefix, a sequence of continuous embeddings which language models can
interpret. It also leverages a sequence of question-answer pairs as a blueprint
plan for selecting salient visual concepts and determining how they should be
assembled into a narrative. Automatic and human evaluation on the VIST
benchmark (Huang et al., 2016) demonstrates that blueprint-based models
generate stories that are more coherent, interesting, and natural compared to
competitive baselines and state-of-the-art systems.
- Abstract(参考訳): ビジュアルストーリーテリングは、画像シーケンスから魅力的な物語を生成することを目的としている。
既存のモデルは、例えば外部知識ソースや高度なグラフ構造を持つ画像シーケンスの表現を強化することに集中することが多い。
近年の進展にもかかわらず、物語はしばしば反復的で非論理的であり、詳細は欠落している。
これらの問題を緩和するため,我々は,事前学習した言語モデルと計画と視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして活用し、優れたビジュアルコンセプトを選択し、それらをストーリーに組み立てる方法を決定する。
VISTベンチマーク(Huang et al., 2016)における自動的および人的評価は、ブループリントベースのモデルは、競合するベースラインや最先端システムと比較して、より一貫性があり、興味深く、自然なストーリーを生成することを示している。
関連論文リスト
- TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Visual Writing Prompts: Character-Grounded Story Generation with Curated
Image Sequences [67.61940880927708]
画像ベースのストーリー生成に関する現在の研究は、既存の画像シーケンスコレクションが背後にコヒーレントなプロットを持たないという事実に悩まされている。
我々は、新しい画像グラウンドデータセット、Visual Writing Prompts (VWP) を作成することで、ビジュアルストーリー生成を改善する。
VWPには5~10枚の画像を含む約2Kの映像が選択されている。
画像シーケンスは、画像シーケンスと対応する画像シーケンスから接地文字のセットを与えられたクラウドソーシングを介して収集された合計12Kストーリーと整列する。
論文 参考訳(メタデータ) (2023-01-20T13:38:24Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。