論文の概要: Generating Visual Stories with Grounded and Coreferent Characters
- arxiv url: http://arxiv.org/abs/2409.13555v1
- Date: Fri, 20 Sep 2024 14:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:30:58.133796
- Title: Generating Visual Stories with Grounded and Coreferent Characters
- Title(参考訳): 接地的特徴とコアフェレントな特徴を持つビジュアルストーリーの生成
- Authors: Danyang Liu, Mirella Lapata, Frank Keller,
- Abstract要約: 本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 63.07511918366848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characters are important in narratives. They move the plot forward, create emotional connections, and embody the story's themes. Visual storytelling methods focus more on the plot and events relating to it, without building the narrative around specific characters. As a result, the generated stories feel generic, with character mentions being absent, vague, or incorrect. To mitigate these issues, we introduce the new task of character-centric story generation and present the first model capable of predicting visual stories with consistently grounded and coreferent character mentions. Our model is finetuned on a new dataset which we build on top of the widely used VIST benchmark. Specifically, we develop an automated pipeline to enrich VIST with visual and textual character coreference chains. We also propose new evaluation metrics to measure the richness of characters and coreference in stories. Experimental results show that our model generates stories with recurring characters which are consistent and coreferent to larger extent compared to baselines and state-of-the-art systems.
- Abstract(参考訳): 登場人物は物語において重要である。
彼らはプロットを前進させ、感情的なつながりを作り、物語のテーマを具現化する。
ビジュアルなストーリーテリング手法は、特定のキャラクターに関する物語を構築することなく、それに関連するプロットやイベントをより重視する。
その結果、生成されたストーリーはジェネリックに感じられ、キャラクタが不在、曖昧、または誤っている。
これらの問題を緩和するため,キャラクタ中心のストーリー生成という新たなタスクを導入し,一貫した接地と中核的なキャラクタの言及で視覚的なストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
具体的には、VISTを視覚的およびテキスト的文字コア参照チェーンで強化する自動パイプラインを開発する。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
実験結果から,本モデルは,ベースラインや最先端システムと比較して,一貫性とコアフェレントな繰り返しキャラクタを持つストーリーを生成することがわかった。
関連論文リスト
- ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
既存の自動回帰手法は、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。
本研究では,コヒーレントなストーリーフレームの生成とストーリー継続のためのフレーム拡張を目的とした新しいフレームワークであるContextualStoryを提案する。
PororoSVとFlintstonesSVベンチマークの実験では、ContextualStoryはストーリービジュアライゼーションとストーリー継続の両方において既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - The GPT-WritingPrompts Dataset: A Comparative Analysis of Character Portrayal in Short Stories [17.184517720465404]
本研究では,人間と機械の両方の生成過程から,ストーリーテリングの感情的特徴と記述的特徴を6次元で定量化し比較する。
生成した物語は6次元すべてで人間ストーリーと大きく異なり、主主人公の物語的視点やジェンダーに応じてグループ化された場合、人間世代と機械世代は同様のバイアスを呈することがわかった。
論文 参考訳(メタデータ) (2024-06-24T16:24:18Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Detecting and Grounding Important Characters in Visual Stories [18.870236356616907]
本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
論文 参考訳(メタデータ) (2023-03-30T18:24:06Z) - Inferring the Reader: Guiding Automated Story Generation with
Commonsense Reasoning [12.264880519328353]
生成プロセスにコモンセンス推論を導入するフレームワークであるCommonsense-inference Augmented Neural StoryTelling (CAST)を紹介する。
我々のCAST手法は,既存のモデルよりも,一文字と二文字の両方で,一貫性があり,オントピー的,楽しむことができる。
論文 参考訳(メタデータ) (2021-05-04T06:40:33Z) - PlotMachines: Outline-Conditioned Generation with Dynamic Plot State
Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。
さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文 参考訳(メタデータ) (2020-04-30T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。