論文の概要: Detecting and Grounding Important Characters in Visual Stories
- arxiv url: http://arxiv.org/abs/2303.17647v1
- Date: Thu, 30 Mar 2023 18:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:14:08.728370
- Title: Detecting and Grounding Important Characters in Visual Stories
- Title(参考訳): ビジュアルストーリーにおける重要人物の検出と接地
- Authors: Danyang Liu, Frank Keller
- Abstract要約: 本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
- 参考スコア(独自算出の注目度): 18.870236356616907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characters are essential to the plot of any story. Establishing the
characters before writing a story can improve the clarity of the plot and the
overall flow of the narrative. However, previous work on visual storytelling
tends to focus on detecting objects in images and discovering relationships
between them. In this approach, characters are not distinguished from other
objects when they are fed into the generation pipeline. The result is a
coherent sequence of events rather than a character-centric story. In order to
address this limitation, we introduce the VIST-Character dataset, which
provides rich character-centric annotations, including visual and textual
co-reference chains and importance ratings for characters. Based on this
dataset, we propose two new tasks: important character detection and character
grounding in visual stories. For both tasks, we develop simple, unsupervised
models based on distributional similarity and pre-trained vision-and-language
models. Our new dataset, together with these models, can serve as the
foundation for subsequent work on analysing and generating stories from a
character-centric perspective.
- Abstract(参考訳): 登場人物はどんな物語の筋書きにも欠かせない。
ストーリーを書く前にキャラクターを確立することは、プロットの明快さと物語全体の流れを改善することができる。
しかし、ビジュアルストーリーテリングに関する以前の研究は、画像中のオブジェクトの検出とそれらの間の関係の発見に集中する傾向がある。
このアプローチでは、文字は生成パイプラインに投入されたときに他のオブジェクトと区別されない。
結果として、キャラクター中心のストーリーではなく、イベントのコヒーレントなシーケンスになる。
この制限に対処するために、vist-characterデータセットを導入し、ビジュアルおよびテキストのコリファレンスチェーンと文字の重要性評価を含む、リッチな文字中心のアノテーションを提供する。
このデータセットに基づいて,重要な文字検出と視覚的ストーリーにおける文字グラウンドニングという2つの新しいタスクを提案する。
どちらのタスクでも,分布的類似性と事前学習された視覚言語モデルに基づく,単純で教師なしのモデルを開発する。
我々の新しいデータセットは、これらのモデルとともに、キャラクター中心の視点からストーリーを分析し、生成する作業の基盤となる。
関連論文リスト
- SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Grounding Characters and Places in Narrative Texts [5.254909030032427]
本稿では,新しい空間関係分類タスクを提案する。
タスクの目的は、テキストのウィンドウ内のすべての文字と位置のコメンデーションに対して、空間的関係カテゴリを割り当てることである。
これらの関係を予測するために、コンテキスト埋め込みを機能として使用するモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-05-27T19:31:41Z) - Personality Understanding of Fictional Characters during Book Reading [81.68515671674301]
この問題に対する最初のラベル付きデータセットPersoNetを提示する。
当社の新たなアノテーション戦略では,オリジナル書籍のプロキシとして,オンライン読書アプリからユーザノートを注釈付けします。
実験と人間の研究は、データセットの構築が効率的かつ正確であることを示している。
論文 参考訳(メタデータ) (2023-05-17T12:19:11Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - "Let Your Characters Tell Their Story": A Dataset for Character-Centric
Narrative Understanding [31.803481510886378]
文芸作品の新しいデータセットLiSCUとその要約を、それらに現れる文字の記述と組み合わせて紹介する。
また、LiSCUにおける文字識別と文字記述生成という2つの新しいタスクについても紹介する。
これらの課題に適応した事前学習型言語モデルを用いた実験により,より優れた物語理解モデルの必要性が示された。
論文 参考訳(メタデータ) (2021-09-12T06:12:55Z) - Changing the Narrative Perspective: From Deictic to Anaphoric Point of
View [0.0]
そこで,筆者が当初使用していたものと異なる視点を文字に割り当てて,物語の視点を変える作業を紹介する。
その結果、物語的視点の転換は読書体験を変化させ、フィクション執筆の道具として使用できる。
本稿では,参照選択のためのニューラルアーキテクチャに依存する生テキストを処理するパイプラインについて述べる。
論文 参考訳(メタデータ) (2021-03-06T19:03:42Z) - PlotMachines: Outline-Conditioned Generation with Dynamic Plot State
Tracking [128.76063992147016]
PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習する、ニューラルな物語モデルである。
さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。
論文 参考訳(メタデータ) (2020-04-30T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。