論文の概要: Plot and Rework: Modeling Storylines for Visual Storytelling
- arxiv url: http://arxiv.org/abs/2105.06950v1
- Date: Fri, 14 May 2021 16:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 15:03:30.160208
- Title: Plot and Rework: Modeling Storylines for Visual Storytelling
- Title(参考訳): Plot and Rework: ストーリーテリングのためのストーリーラインのモデリング
- Authors: Chi-Yang Hsu, Yun-Wei Chu, Ting-Hao (Kenneth) Huang, Lun-Wei Ku
- Abstract要約: 本稿では,入力画像シーケンスをストーリーグラフとして表現するフレームワークであるPR-VISTについて紹介する。
PR-VISTは反復的なトレーニングプロセスを通じて最終ストーリーを生成することを学ぶ。
アブレーション研究は、プロットとリワークの両方がモデルの優位性に貢献していることを示している。
- 参考スコア(独自算出の注目度): 12.353812582863837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing a coherent and engaging story is not easy. Creative writers use their
knowledge and worldview to put disjointed elements together to form a coherent
storyline, and work and rework iteratively toward perfection. Automated visual
storytelling (VIST) models, however, make poor use of external knowledge and
iterative generation when attempting to create stories. This paper introduces
PR-VIST, a framework that represents the input image sequence as a story graph
in which it finds the best path to form a storyline. PR-VIST then takes this
path and learns to generate the final story via an iterative training process.
This framework produces stories that are superior in terms of diversity,
coherence, and humanness, per both automatic and human evaluations. An ablation
study shows that both plotting and reworking contribute to the model's
superiority.
- Abstract(参考訳): コヒーレントで魅力的なストーリーを書くのは簡単ではありません。
創造的な作家は彼らの知識と世界観を使い、無関係な要素を結合してコヒーレントなストーリーラインを作り、完璧に向けて反復的に作業し、再作業する。
しかし、VIST(Automated Visual Storytelling)モデルでは、ストーリーを作成しようとする場合、外部知識と反復生成が不十分である。
本稿では,入力画像列をストーリーグラフとして表現するフレームワークであるPR-VISTを紹介する。
PR-VISTはこの道を進み、反復的なトレーニングプロセスを通じて最終ストーリーを生成することを学ぶ。
このフレームワークは、自動評価と人間評価の両方において、多様性、一貫性、人間性において優れたストーリーを生み出す。
アブレーション研究は、プロットとリワークの両方がモデルの優位性に貢献していることを示している。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Guiding Neural Story Generation with Reader Models [5.935317028008691]
本稿では、読者モデルを用いてストーリーを推論するフレームワークであるReader Models(StoRM)によるストーリー生成について紹介する。
実験により、我々のモデルは、プロットの可視性やトピックの継続など、次元のベースラインをはるかに上回り、コヒーレントでオントピー的なストーリーを生み出すことが示された。
論文 参考訳(メタデータ) (2021-12-16T03:44:01Z) - PlotMachines: Outline-Conditioned Generation with Dynamic Plot State
Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。
さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文 参考訳(メタデータ) (2020-04-30T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。